JP6210867B2

JP6210867B2 - データ関連性解析システムおよびデータ管理装置

Info

Publication number: JP6210867B2
Application number: JP2013252249A
Authority: JP
Inventors: 慶行但馬; 智之望月; 志村　明俊; 明俊志村; 隆之武沢
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2017-10-11
Anticipated expiration: 2033-12-05
Also published as: JP2015109028A

Description

本発明は、データ関連性解析システムおよび方法に関する。

例えば、電力管理システム、水道管理システム、道路交通システム、列車運行管理システムなどの各種社会基盤に代表されるシステムでは、その運用や保守のためにデータを計測して管理する。そのようなシステムでは、設備で検出したセンサ値、設備の動作ログ、設備で生じたアラーム等の多種多様なデータを特定の観点で整理することで、評価指標や関係グラフを作成する。システム管理者は、それら評価指標や関係グラフを監視することで、迅速にトラブルシューティングなどを行う。

システムを適切に管理するためには、システム構成や解析内容に応じた、評価指標や関係グラフを構築する必要がある。このため、特許文献１では、アラームの発生時刻の相互相関関数を用いてアラームをクラスタリングすることで、時間的な因果関係を含む関係グラフを作成する。特許文献１では、アラーム同士の関連を相互相関関数で測ることができる場合、連鎖的に発生するアラームを解析することができる。

一方、着目すべき変数が多数存在する状況において、主成分分析を用いた多変量統計的プロセス管理手法も提案されている。特許文献２に記載の手法では、データに対して主成分分析を行い、その主成分に基づく空間上でのデータの統計量を評価指標とすることにより、定常と異常とを判別する。なお、特許文献２では、主成分分析を用いた多変量統計的プロセス管理手法に対して、解析者（オペレータ）には、もとの変数で異常を監視する技術が開示されている。

ところで昨今では、ＤＳＭ（Demand Side Management）に代表される、利用者に応じたサービス（例えば節電によるＤＲ（Demand Response））などが検討されている。そのようなサービスメニューを構築するために、利用者および利用者の保持する設備に関する関連性の解析が新たに求められるであろう。

特開２００５−２１６１４８号公報国際公開第２０１２／０９０９３７号

特許文献１記載の技術は、限定された知見またはノウハウを自動化したに過ぎない。従って、特許文献１記載の技術では、データ間の関連をそれらの発生時刻に関する相互相関関数だけでは測れない場合、それらデータ間の関連性を解析できない可能性がある。例えば、対象とする各データが設備の設置場所に依存する場合、関連性を解析することができない。

一方、特許文献２記載の技術では、設置場所などの他の変数も考慮できる。ただし、特許文献２の技術では、データの関連（データの遠近）として、共分散もしくは相関係数を前提としている。このため、特許文献２の技術では、間隔尺度で測定できるデータ同士でなければ、関連を解析することはできない。

ところが、実際には設備の型式等のように、間隔尺度では測れない項目が多くある。同じ性質の項目同士ならば、予め妥当な相関を定義することも可能である。しかし、複数の異なる性質の項目がある場合、それら項目同士の関係を決定するのは難しい。

既知の問題もしくは同種の問題の解析については、もしもデータ間の関連についての教師データが得られるならば、ベイジアンネットワーク等に代表される、統計的な教師あり学習手法を使うことで対応できる可能性がある。

しかし、教師データが得られない場合、もしくは未知の問題を解析する場合は、データ間の関連の定義、および、データ間の関係を予め一つに決めることはできない。これらの場合は、解析者が試行錯誤しながら定義や関係を決めるしか方法はない。

解析者による試行錯誤を前提とした場合、特許文献１および２に記載の従来技術では、データ間の関連の定義を変えるたびに、全てのデータペアについての相関を計算する必要がある。その計算が相互相関関数のような比較的処理負荷の大きい計算を内包する場合、その計算に要する計算機リソースは大きくなる。実際には、このような試行錯誤を伴う解析作業は、パーソナルコンピュータなどで行われることが多いため、計算機リソースの増大は無視できない。

他方、多くの場合、関連が比較的に小さいデータペアは解析の興味の範疇でない。すなわち、関連がある種の類似度として定義される場合、類似度の小さいデータペアの計算は、無視もしくは近似しても、解析結果に大きな影響を与えない可能性が高い。

本発明は、上記課題に鑑みてなされたもので、データを解析する条件を柔軟に設定することができ、かつ、高速にデータ間の関連性を解析することができるようにしたデータ関連性解析システムおよびデータ管理装置を提供することにある。

上記課題を解決すべく、本発明に従うデータ関連性解析システムは、データ間の関連性を解析するデータ関連性解析システムであって、各元データに対し所定演算を適用することで、各元データ間の類似度を近似的に算出するために使用する近似値を生成する近似値生成部と、各元データに対応する各近似値に基づいて、各元データ間の関連性を演算する関連性演算部と、関連性演算部による演算結果を出力する演算結果出力部と、を備え、関連性演算部は、予め用意された複数の観点の中から選択した所定の観点ごとに各元データの近似値同士の距離を算出し、近似値同士の距離が所定の閾値以下である場合は、各近似値に対応する各元データに基づいて各元データ間の類似度を算出し、近似値同士の距離が所定の閾値を越える場合は、各近似値に対応する各元データ間の類似度を近似値同士の距離以下の所定値として算出し、算出した各類似度に基づいて各元データをクラスタリングすることで各元データ間の関連性を演算する。

本発明によれば、予め用意された複数の観点の中から選択する所定の観点に基づいて、元データ間の関連性を演算させることができる。従って、所定の観点を変更することで、種々の解析を行うことができる。さらに、本発明によれば、元データの近似値から算出する距離に基づいて、類似する可能性の高い元データのペアを速やかに抽出することができ、類似する可能性の低い元データのペアについては類似度を小さく設定して、解析対象から実質的に除外することができる。これにより、本発明によれば、柔軟かつ高速にデータ間の関連性を解析することができる。

データ関連性解析システムの全体構成を示す説明図である。ハードウェア要素の構成例を示す説明図である。ハッシング方法を管理するテーブルの構成例である。制御システムから収集したデータを管理するテーブルの構成例である。データ間の関連性を解析したデータを管理するテーブルの構成例である。ハッシュデータを生成する処理のフローチャートである。データ間の関連性を解析する処理のフローチャートである。時系列データのハッシュを生成する処理のフローチャートである。時系列データを特徴ベクトルに変換する処理のフローチャートである。時系列データを特徴ベクトルに変換する様子を示す説明図である。近似類似度行列を生成する処理のフローチャートである。近似精度を算出する処理のフローチャートである。ユーザ類似度を定義する画面例を示す説明図である。解析結果を表示する画面例を示す説明図である。ユーザ類似度の履歴を表示する画面例を示す説明図である。第２実施例に係り、データ関連性解析システムを消費電力の需要調整システムに適用した場合の例を示す説明図。消費者のDR応答特性を推定する処理のフローチャート。

以下、図面に基づいて、本発明の実施の形態を説明する。以下に述べるように、本実施形態は、近似値生成部としての第１処理手段と、関連性演算部としての第２処理手段とを含む。第１処理手段は、各元データ（以下、データとも呼ぶ）に対して、データ間の距離または類似度を保存するハッシュを算出する。ハッシュは「近似値」に該当する。第２処理手段は、データ解析者（以下、ユーザとも呼ぶ）の設定するユーザ類似度に基づいて類似度行列を作成し、その類似度行列に基づいて各データをクラスタリングする。ユーザは、分析したい観点を表す関連を定義することで、ユーザ類似度を設定できる。

第２処理手段は、ユーザ類似度関数に対応するハッシュから距離関数（合成ハッシュ距離関数）を算出し、距離の値が近い場合は真の類似度を計算する。第２処理手段は、前記距離の値が遠い場合は前記距離の値以下に設定される所定値を割り当てる。所定値は、例えば、０または前記距離の値に設定することができる。

本実施形態によれば、ユーザは、システムや設備などのデータに対して、柔軟に関連（もしくは遠近）を定義することができ、かつ、高速にデータ間の関連性を抽出することができる。従って、ユーザがデータ間の関連（遠近）に関する知識や経験を十分に持っていない場合でも、あるいは、未知の解析問題である場合でも、データ間の関連性を迅速に解析することができ、解析作業の効率が向上する。

図１は、データ関連性解析システムの全体構成を示す。本実施例では、例えば発電設備または変電設備などの制御システム１における異常検知または予兆診断のために、それら設備１２ならびに監視システム１１のデータの関連性を解析（クラスタリング）する。これにより、本実施例では、制御システム１の定常状態を定義し、新たに取得したデータが定常状態からどれだけかけ離れているかを評価することで、異常検知または予兆診断を行う。この結果、本実施例では、制御システム１の運用および保守についてのコストを低減することができる。

本実施例では、所定のタイミングで、制御システム１の定常状態を定義するために、監視システム１１や設備１２のデータから関連性を解析する場合を説明する。所定のタイミングとは、例えば、上述した異常検知または予兆診断に先立つタイミング、あるいは、設備１２または監視システム１１を更新するタイミング、ユーザの指示したタイミングなどである。

図１に示すように、データ関連性解析システムは、一つ以上の制御システム１と一つ以上の解析システム２とを通信ネットワークＮ１で接続することで構成される。通信ネットワークＮ１は、例えばインターネットあるいは専用通信網などである。

制御システム１は、監視システム１１と、設備１２と、ＧＷ（Gateway）装置１３とを備える。なお、各要素１１，１２，１３は複数であってもよい。また、制御システム１自体が複数存在してもよい。物理的に遠く離れた場所に分散する複数の制御システム１を通信ネットワークＮ１で接続する構成でもよい。

監視システム１１は、例えば、設備１２の設置された工場やプラントなどの各種状態を監視して信号を出力する。設備１２は、例えば、発電機、変圧器、電動機、冷却器などの各種設備であり、例えば電圧値、電流値、振動、温度、湿度、圧力、流量、重量などのセンサ値を出力する。ＧＷ装置１３は、監視システム１１あるいは設備１２から取得したデータを前処理して解析システム２に送信する。ＧＷ装置１３の構成例は後述する。

監視システム１１と設備１２とＧＷ装置１３とは、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）などを用いた制御システムネットーワークＮ２を介して接続される。

解析システム２は、例えば、データ管理計算機１４と解析用計算機１５を備える。データ管理計算機１４と解析用計算機１５とは、解析システムネットーワークＮ３を介して接続される。

各計算機１４、１５はそれぞれ複数ずつ存在してもよいし、一つの計算機内にデータ管理計算機１４の機能と解析用計算機１５の機能とを設けてもよい。さらに、ユーザに情報を提示したり、ユーザからの入力を受け付けたりするための操作端末を設けてもよい。なお、解析システム２が複数存在する構成でもよい。

なお、上記の構成は一例であって、複数の通信ネットワークＮ１、Ｎ２、Ｎ３を一つの通信ネットワークとして構成してもよいし、あるいは、各通信ネットワークＮ１、Ｎ２、Ｎ３の少なくとも一部を階層化ネットワークとして構成してもよい。

制御システム１の機能構成を説明する。ＧＷ装置１３は、収集部１３Ｆ１と、ハッシュ生成部１３Ｆ２と、転送部１３Ｆ３とを備える。収集部１３Ｆ１は、監視システム１１および設備１２から、データを収集する機能である。

ハッシュ生成部１３Ｆ２は、「近似値生成部」の一例であって、収集部１３Ｆ１の集めたデータからハッシュを生成する機能である。「近似値」の一例であるハッシュは、データ間の類似度あるいは距離を保存しており、局所性鋭敏なハッシュとも呼ばれる。転送部１３Ｆ３は、ハッシュ生成部１３Ｆ２で作成したハッシュと収集部１３Ｆ１の収集したデータ（元データ）とを対応づけて、解析システム２のデータ管理計算機１４に転送する機能である。

解析システム２の機能構成を説明する。データ管理計算機１４は、例えば、ハッシング方法データ管理部１４Ｆ１と、収集データ管理部１４Ｆ２と、ハッシュ関数生成部１４Ｆ３とを備える。

ハッシング方法データ管理部１４Ｆ１は、ハッシュ生成部１３Ｆ２が各データ項目（例えば、センサ値、監視アラームなど）に対して適用するハッシュ生成方法についてのデータを管理する。収集データ管理部１４Ｆ２は、ＧＷ装置１３から受領した、監視システム１１や設備１２のデータおよびそのハッシュを管理する機能である。ハッシュ関数生成部１４Ｆ３は、例えばスペクトラルハッシングのようなデータに基づいてハッシュを生成する場合に、そのためのハッシュ関数を生成する機能である。

解析用計算機１５は、例えば、合成ハッシュ関数距離定義部１５Ｆ１と、類似度行列作成部１５Ｆ２と、関連性抽出部１５Ｆ３と、表示データ作成部１５Ｆ４と、ユーザインターフェース部１５Ｆ５と、解析データ管理部１５Ｆ６とを備える。

合成ハッシュ関数距離定義部１５Ｆ１は、ユーザが設定した類似度（ユーザ類似度）に対応する合成ハッシュ距離を定義する機能である。類似度行列作成部１５Ｆ２は、合成ハッシュ距離と収集したデータとを用いて、近似類似度行列を生成する機能である。関連性抽出部１５Ｆ３は、作成された近似類似度行列を使って、データ間の関連性を抽出する機能である。

表示データ作成部１５Ｆ４は、関連性抽出部１５Ｆ３が抽出した関連性の解析結果および状況などの表示データを作成する機能である。ユーザインターフェース部１５Ｆ５は、ユーザがユーザ類似度を解析用計算機１５に入力したり、データ間の関連性の解析結果および状況などをユーザに提示したりするための機能である。解析データ管理部１５Ｆ６は、データ間の関連性の解析結果を管理する機能である。

「関連性演算部」は、例えば合成ハッシュ関数距離定義部１５Ｆ１と、類似度行列作成部１５Ｆ２と、関連性抽出部１５Ｆ３とから構成することができる。「演算結果出力部」は、例えば表示データ作成部１５Ｆ４と、ユーザインターフェース部１５Ｆ５とから構成することができる。

図２は、図１で述べた各機能の実現に使用するハードウェア構成の一例を示す。ＧＷ装置１３、データ管理計算機１４、解析用計算機１５は、それぞれ例えば図２に示すコンピュータシステムを有する。

ＣＰＵ（Central Processing Unit）１Ｈ１０１は、ＲＯＭ（Read Only Memory）１Ｈ１０２もしくは外部記憶装置１Ｈ１０４に格納された所定のコンピュータプログラムをＲＡＭ（Read Access Memory）１Ｈ１０３に読み込んで実行する。

これにより、上述の収集部１３Ｆ１、ハッシュ生成部１３Ｆ２、転送部１３Ｆ３、ハッシング方法データ管理部１４Ｆ１、収集データ管理部１４Ｆ２、ハッシュ関数生成部１４Ｆ３、合成ハッシュ距離定義部１５Ｆ１、類似度行列作成部１５Ｆ２、関連性抽出部１５Ｆ４、表示データ作成部１５Ｆ４、ユーザインターフェース部１５Ｆ５、解析データ管理部１５Ｆ６がそれぞれ実現される。

ＣＰＵ１Ｈ１０１は、通信インターフェース１Ｈ１０５を介して通信ネットワークに接続し、データ通信することができる。外部入力装置１Ｈ１０６は、指示または情報をコンピュータシステムに入力するためのもので、例えば、マウス、キーボード、タッチパネル、音声指示装置などから構成される。外部出力装置１Ｈ１０７は、コンピュータシステムから情報を出力するためのもので、例えば、ディスプレイ、プリンタ、音声合成装置などから構成される。

図３〜図５を用いて、データ構造の例を説明する。図３は、ハッシング方法データ管理部１４Ｆ１が管理するハッシング方法データの構成例である。ハッシング方法データは、監視システム１１からのデータまたは設備１２からのデータからハッシュを生成する方法を示すデータである。

ハッシング方法データは、例えば、データ項目ＩＤ１Ｄ１０１と、観点名称１Ｄ１０２と、ハッシング方法１Ｄ１０３と、ハッシングパラメータ１Ｄ１０４と、類似度指標１Ｄ１０５とを備える。

データ項目ＩＤ１Ｄ１０１は、データ種別を表す。観点名称１Ｄ１０２は、データ項目の内容を示す。ハッシング方法１Ｄ１０３は、例えばＣｏｓｉｎｅ尺度に対するＬＳＨ（Locality Sensitive Hashing）などのハッシュ生成手法を示す。ハッシングパラメータ１Ｄ１０４は、ハッシュ長（ビット数）などのハッシュ生成方法に関連するパラメータを示す。類似度指標１Ｄ１０５は、データ項目１Ｄ１０１についての類似度の定義を表す。

図４は、収集データ管理部１４Ｆ２が管理する収集データの構成例を示す。収集データは、ＧＷ装置１３から受信したデータおよびそのハッシュを対応づけている。収集データは、例えば、ソースＩＤ１Ｄ２０１と、データ項目ＩＤ１Ｄ２０２と、日時１Ｄ２０３と、元データ１Ｄ２０４と、特徴ベクトル１Ｄ２０５と、ハッシュ１Ｄ２０６とを備えている。

ソースＩＤ１Ｄ２０１は、データソースを識別するＩＤを表す。データソースとは、監視システム１１のプログラムブロック、設備１２である。データ項目ＩＤ１Ｄ２０２は、データ種別を表す。日時１Ｄ２０３は、データを収集した日付と時刻を表す。元データ１Ｄ２０４は、監視システム１１や設備１２から収集した未加工データを示す。特徴ベクトル１Ｄ２０５は、元データ１Ｄ２０４を要約した場合のデータを表す。ハッシュ１Ｄ２０６は、元データ１Ｄ２０４もしくは特徴ベクトル１Ｄ２０５から生成するハッシュ値である。

収集データの具体例を説明する。設備１２からは、例えば、基本的設備情報と、保守情報と、計測制御情報と、イベント情報などを収集できる。基本的設備情報とは、例えば、設備名称、設備の種類および型式、設備の設置場所などの情報である。保守情報とは、例えば、設備の設置年度、保障期間、点検日時などの情報である。計測制御情報とは、例えば、設備に取り付けられた温度センサまたは振動センサなどの計測値、設備内のコントローラの動作ログなどである。イベント情報とは、例えば、設備の起動および終了等の通知、消耗品切れ、故障発生を知らせるアラームなどである。このように解析システム２は、制御システム１から、時系列データ、非時系列データ、連続データ、非連続データ（離散データ）のような種々のデータを収集可能となっている。

図５は、解析データ管理部１５Ｆ６が管理する解析データの構成例を示す。解析データは、収集データに基づいてデータ間の関連性を解析した結果を表す。解析データは、例えば、類似度番号１Ｄ３０１と、試行番号１Ｄ３０２と、ユーザ類似度定義情報１Ｄ３０３と、近傍定義情報１Ｄ３０４と、クラスタリングパラメータ１Ｄ３０５と、類似度行列バイナリ１Ｄ３０６とを備える。

類似度番号１Ｄ３０１は、ユーザ類似度の定義番号を表す。試行番号１Ｄ３０２は、同一のユーザ類似度を用いて、解析をやり直した場合の番号である。ユーザは、例えば同一のユーザ類似度の定義において、近傍定義情報１Ｄ３０４を変更した場合の解析結果を得ることができる。

ユーザ類似度定義情報１Ｄ３０３は、ユーザ類似度の定義を表す。近傍定義情報１Ｄ３０４は、近似類似度行列を計算する場合の下限類似度を表す。下限類似度は「所定の閾値」に対応する。クラスタリングパラメータ１Ｄ３０５は、クラスタリングの方法およびクラスタ数を表す。クラスタリングは、後述のように、近似類似度行列に基づく関連性（関連度）の抽出において実施する。類似度行列バイナリ１Ｄ３０６は、近似された各要素の類似度行列のバイナリ表現である。

ここで、ユーザ類似度定義情報１Ｄ３０３は、ユーザが定義した関連（または遠近）の定義であって、データ項目に対する重み情報である。この重みは、０以上１未満に設定されており、かつ重みの総和は１である。例えば、図５に示すように、データ項目Ａ０１の重みが０．２、データ項目Ｂ０２の重みが０．１、他が０といった値を取る。ユーザ類似度定義情報１Ｄ３０３は、例えば、アラーム発生時刻および設備名称に関する関連を考慮した類似度を表現することができる。

データ関連性解析システムの動作を説明する。まず図６と図７を用いて、データの関連性を解析する処理の全体の流れを説明する。

本処理に先立ち、各データ項目には、ハッシング方法データ管理部１４Ｆ１の管理するハッシング方法データが設定されており、そのハッシング方法データは各ＧＷ装置１３で共有されているものとする。ハッシング方法データは、上述の通り、ハッシュ生成の方法とパラメータとを含む。

図６を用いて、ＧＷ装置１３によるハッシュデータ生成処理を説明する。まず、収集部１３Ｆ１は、監視システム１１および設備１２から定期的にデータを収集し、ＲＡＭ１Ｈ１０３または外部記憶装置１Ｈ１０４に記憶する（ステップ１Ｓ１０１）。以下、ＲＡＭ１Ｈ１０３または外部記憶装置１Ｈ１０４を記憶領域と称する。なお、収集部１３Ｆ１は、定期的にデータを収集するのではなく、任意のタイミングで、監視システム１１および設備１２からデータを収集することもできる。

ハッシュ生成部１３Ｆ２は、収集したデータ（元データ１Ｄ２０４）のうちベクトル表現ではないデータから、特徴ベクトルを生成する（特徴ベクトル１Ｄ２０５）に変換する（ステップ１Ｓ１０２）。ベクトル表現ではないデータから特徴ベクトルを得ることを特徴ベクトル化と呼ぶ。

例えば、設備の名前や型式などの文字データは、その類似性を連続的に表現できるベクトル表現として、特徴ベクトル化する。画像データは、例えば色ヒストグラム、ＳＩＦＴ（Scale Invariant Feature
Transform）、ＳＵＲＦ（Speed-Up
Robust Features）などの、特徴量を使って特徴ベクトル化する。温度や振動数などの時系列かつ連続的なデータは、ＡＲ（Autoregressive）モデル等の統計モデルのパラメータとして特徴ベクトル化する。アラームやログのような時系列かつ非連続なデータは、後述の方法で特徴ベクトル化する。なお、もともとハッシュを生成しやすいベクトル表現となっているのならば、特徴ベクトルを生成する処理（ステップ１Ｓ１０２）は実施しなくてもよい。

ハッシュ生成部１３Ｆ２は、ステップ１Ｓ１０２で生成した特徴ベクトルから、類似度や距離を保存するハッシュを生成する（１Ｓ１０３）。ここでのハッシュとは、特定の手法に限定しない意味での、局所性鋭敏なハッシュを意味する。

ハッシュ生成部１３Ｆ２は、ハッシュ生成に際して、データ項目ＩＤ（１Ｄ１０１）に応じたハッシング方法（１Ｄ１０３）を用いる。例えば、関連の定義としてＬ２ノルムを用い、ＬＳＨ（Locality Sensitive Hashing）によってハッシュを生成する場合には、ｐ安定分布（平均０、分散１となる正規乱数）を用いて生成する。なお、ハッシュ生成部１３Ｆ２は、ハッシュ生成に際して、ハッシングパラメータ１Ｄ１０４の値を参照する。

転送部１３Ｆ３は、収集データ（元データ）と、特徴ベクトルと、生成したハッシュとをまとめてデータ管理計算機１４のハッシング方法データ管理部１４Ｆ１に転送する（ステップ１Ｓ１０４）。なお、制御システム１から解析システム２へのデータ転送は、必ずしも逐次的に行う必要はなく、バッチ処理でもよい。例えば、制御システム１から解析システム２へ１日単位でデータを転送してもよい。

図７を用いて、解析システム２によるデータ間の関連性を解析する処理の全体概要を説明する。

ユーザインターフェース部１５Ｆ５は、ユーザから、解析対象とする監視システム１１や設備１２、あるいは、それらのデータ項目といった、解析範囲提示情報を取得する（ステップ１Ｓ２０１）。

ユーザインターフェース部１５Ｆ５は、ユーザから、解析範囲提示情報に該当する監視システム１１や設備１２、データ項目となる観点で定義される、ユーザ類似度定義情報を取得する（ステップ１Ｓ２０２）。ユーザがユーザ類似度を定義するためのＧＵＩ（Graphical User Interface）の例については後述する。

ユーザインターフェース部１５Ｆ５は、ユーザから近傍定義情報を取得する（ステップ１Ｓ２０３）。本実施例において、近傍定義情報（図５の１Ｄ３０４）とは、近似類似度行列に含まれる各要素のうち０を除く要素（値）の下限を設定する情報である。すなわち、近傍定義情報は、比較対象のデータ同士が近似するかどうかを判別するための所定の閾値である。以降、近傍定義情報の値を「類似度下限」と呼ぶ場合もある。

合成ハッシュ距離定義部１５Ｆ１は、ユーザ類似度定義情報で定義されるユーザ類似度関数から、合成ハッシュ距離関数を生成する（ステップ１Ｓ２０４）。例えば、合成ハッシュ距離定義部１５Ｆ１は、ユーザ類似度関数を構成する各類似度Ｓに対応するハッシュのハミング距離をＨｄとするとき、類似度Ｓをα／（１＋Ｈｄ）で代用することで、合成ハッシュ距離関数を生成する。

ここでαは正の定数であり、本実施例では予め各類似度の中からサンプリングした値に基づいて、もっともらしい値を設定する。なお、類似度Ｓの代用方法としてα／（１＋Ｈｄ）を用いる場合を述べたが、これに限らず他の置換を用いてもよい。例えば、類似度Ｓを、１−Ｈｄ／（Ｈｄの最大値）などで代用してもよい。

類似度行列作成部１５Ｆ２は、ユーザ類似度関数と合成ハッシュ距離関数と収集データとを用いて、近似類似度行列を作成する（ステップ１Ｓ２０５）。ステップ１Ｓ２０５の処理について図１１で後述する。

関連性抽出部１５Ｆ３は、ステップ１Ｓ２０５で作成した近似類似度行列を使ってラプラシアン行列を生成し、さらにスペクトラルクラスタリングを実行することで、関連性（クラスタ）を解析する（ステップ１Ｓ２０６）。

ここで、クラスタリングには既存の様々なアルゴリズムを用いることができる。例えば、階層的クラスタリング、ｋ−ｍｅａｎｓ、ＳＭＩ（Squared-loss Mutual Information）クラスタリング等を用いることができる。

表示データ作成部１５Ｆ４ならびにユーザインターフェース部１５Ｆ５は、関連性の解析結果（クラスタ情報）と近似精度を外部出力装置１Ｈ１０７を介してユーザに表示する（ステップ１Ｓ２０７）。ユーザに提示する画面については、後述する。

図８を用いて、アラームやログなどの時系列かつ非連続なデータからハッシュを生成する処理の例を説明する。ユーザ（またはデータ収集項目を設定する管理者）は、収集対象とするアラームやログについての収集条件を事前に設定する。本処理では、収集条件が成立した時点から一定期間だけ過去のデータを収集する。

ハッシュ生成部１３Ｆ２は、以下の処理（ステップ１Ｓ３０２〜ステップ１Ｓ３０５）を一定期間単位で、例えば一日単位で実行する（ステップ１Ｓ３０１）。

ハッシュ生成部１３Ｆ２は、収集条件が成立したか判定する（ステップ１Ｓ３０２）。ハッシュ生成部１３Ｆ２は、収集条件が成立したと判定すると（ステップ１Ｓ３０２：ＹＥＳ）、予め指定されたデータ（アラーム、ログ、センサデータ等）について、収集条件が成立した時点から一定期間だけ過去のデータを収集する（ステップ１Ｓ３０３）。

ハッシュ生成部１３Ｆ２は、ステップ１Ｓ３０３で収集した時系列データから特徴ベクトルを生成した後（ステップ１Ｓ３０４）、ステップ１Ｓ３０１に戻る。定期的または不定期に発生するアラームやログのような時系列データから特徴ベクトルを生成する処理については、図９および図１０で後述する。

ハッシュ生成部１３Ｆ２は、収集条件が成立していないと判定すると（ステップ１Ｓ３０２：ＮＯ）、例えば数十ミリ秒程度の一定期間だけスリープした後で（ステップ１Ｓ３０５）、ステップ１Ｓ３０１に戻る。

一定期間が経過してループを脱した場合、ハッシュ生成部１３Ｆ２は、ステップ１Ｓ３０４で生成した各特徴ベクトルをクラスタリングすることで、代表ベクトルを抽出する（ステップ１Ｓ３０６）。なお、クラスタリングには、ｋ−ｍｅａｎｓ等の各種手法を用いることができる。ハッシュ生成部１３Ｆ２は、ステップ１Ｓ３０７で抽出した各代表ベクトルについて、ＬＳＨを用いてハッシュを生成する（ステップ１Ｓ３０７）。

上記の手順で特徴ベクトルならびにハッシュを生成すると、ある一つのデータは、複数の特徴ベクトルおよび複数のハッシュを持つ。そこで、本実施例では、第１データに含まれる特徴ベクトル群（ハッシュ群）と第２データに含まれる特徴ベクトル群（ハッシュ群）とのペアの組み合わせに関して、最も大きい類似度をそのデータペアの類似度として使用する。最も大きい類似度とは、最も小さいハッシュ距離である。なお、最大の類似度（最小のハッシュ距離）を用いることに代えて、データペアの各類似度（ハッシュ距離）の平均値をそのデータペアの類似度（ハッシュ距離）として用いてもよい。

図９および図１０を用いて、時系列データの特徴ベクトル化（ステップ１Ｓ３０４）の詳細を説明する。図９は時系列データから特徴ベクトルを生成する処理のフローチャートを示し、図１０は図９に示す処理の概略を模式的に示す。

ここで、図１０の１Ｘ１０１に示すように、ある時刻のデータｅ４で収集条件が成立したとする。図８のステップ１Ｓ３０３で説明したように、収集条件が成立した時点から一定期間だけ過去のデータ（１Ｘ１０２）が抽出される。

ハッシュ生成部１３Ｆ２は、抽出した各データの時間間隔データを抽出する（ステップ１Ｓ４０１）。例えば、図１０に示す各データｅ１，ｅ２，ｅ３，ｅ４が、それぞれ時刻１０：００，１０：０１，１０：０２，１０：０３に出力されたものとする。この場合、ハッシュ生成部１３Ｆ２は、１Ｘ１０３に示すように、データｅ１とデータｅ２の間が１分、データｅ１とデータｅ３の間が２分、データｅ１とデータｅ４の間が３分、データｅ２とデータｅ３の間が１分、データｅ２とデータｅ４の間が２分といった具合で、各データ間の時間を算出する。

ハッシュ生成部１３Ｆ２は、ステップ１Ｓ４０１で得た時間間隔データをヒストグラム化する（ステップ１Ｓ４０２）。例えば、それぞれ担当する時間範囲の異なる複数のビンを用意し、各ビンに配置する時間間隔データの数を整理する。例えば、ビン１は０〜１．５分、ビン２は１．５〜２．５分、ビン３は２．５〜３．５分、ビン４は３．５〜４．５分、ビン５は４．５分以上とすると、１Ｘ１０４に示すようなヒストグラムを作成することができる。

ハッシュ生成部１３Ｆ２は、ステップ１Ｓ４０２で作成したヒストグラムを正規化する（ステップ１Ｓ４０３）。ヒストグラムの正規化とは、例えば、ノルム１のベクトルに変換することである。

なお、時間間隔データの総数は、収集したデータの数をｎ個とするとｎＣ２（ｎコンビネーション２）となるので、ステップ１Ｓ４０２で作成したヒストグラムの各値をｎＣ２で割ることで正規化することができる。

図１１を用いて、図７のステップ１Ｓ２０５で示した近似類似度行列の作成処理を説明する。なお、本実施例では、類似の探索に三角不等式ＶＰ−Ｔｒｅｅを用いた場合を示すが、ＬＡＥＳＡ（Linear Approximating and
Eliminating Search Algorithm）等の他の手法を用いてもよい。

類似度行列作成部１５Ｆ２は、合成ハッシュ距離に基づくピボット情報を計算し、探索木（ＶＰ−Ｔｒｅｅ）を構築する（ステップ１Ｓ５０１）。ピボット情報とは、ＶＰ（ヴァンテージポイント）である。

類似度行列作成部１５Ｆ２は、ユーザ類似度関数を合成ハッシュ距離関数に写像する関数を推定する（ステップ１Ｓ５０２）。例えば、数十点程度のデータペアのサンプルについて、ユーザ類似度関数の値と合成ハッシュ距離関数の値とをそれぞれ求め、ユーザ類似度関数の値と合成ハッシュ距離関数の値との関係を１次の線形回帰モデル（直線）として、その尤度を推定する。このユーザ類似度関数を合成ハッシュ距離関数に写像する関数を本実施例ではｆとする。なお、写像関数の推定には、他の統計手法を用いてもよい。また、ここで計算したユーザ類似度関数は、類似度行列の要素に設定することができる。

類似度行列作成部１５Ｆ２は、ＶＰ−Ｔｒｅｅに対するクエリを決める（ステップ１Ｓ５０３）。類似度行列作成部１５Ｆ２は、解析範囲に指定されているデータ集合に属しており、かつ、今までクエリとして選ばれていないデータを選択する。

類似度行列作成部１５Ｆ２は、ステップ１Ｓ５０３で選んだクエリの近傍データ集合を探索する（ステップ１Ｓ５０４）。近傍データ集合を、近傍集合と呼ぶ場合がある。近傍集合とは、Ｈｄ（クエリ，Ｘ）＜＝ｆ（類似度下限）という不等式を満足するデータＸである。ここで、Ｈｄは合成ハッシュ関数であり、同様にｆ（・）はユーザ類似度関数から合成ハッシュ距離関数への写像を推定した関数である。

ＶＰ−Ｔｒｅｅを用いて探索する場合、ルートノードからリーフノードまで順に辿っていき、リーフノードに含まれるデータ点について前記不等式をチェックする。なお、合成ハッシュ距離関数は三角不等式を満たすように定義されているので、リーフノードにおける三角不等式による探索範囲の限定ができる。これは、ＬＡＥＳＡなど他の三角不等式を用いて探索範囲を限定する他の探索法を用いる場合でも用いることができる。

類似度行列作成部１５Ｆ２は、クエリと近傍集合に含まれる各点のデータとについて、ユーザ類似度をそれぞれ計算し、行列要素として類似度行列に設定する（ステップ１Ｓ５０５）。

類似度行列作成部１５Ｆ２は、クエリと近傍集合に含まれていない各点のデータとについて、「所定値」としての０を設定する（ステップ１Ｓ５０６）。なお、先に類似度行列を０で初期化する場合、本ステップ１Ｓ５０６は省略できる。また、所定値は０に限らず、近似的に算出した距離以下の値を設定してもかまわない。

類似度行列作成部１５Ｆ２は、未探査のクエリがあるか確認する（１Ｓ５０７）。すなわち類似度行列作成部１５Ｆ２は、解析範囲に指定されたデータ集合に属していて、かつ今までクエリとして選ばれていないデータがないことを確認する。選ばれていないデータがあると判定すると（１Ｓ５０７：ＹＥＳ）、類似度行列作成部１５Ｆ２はステップ１Ｓ５０３に戻る。そうでない場合は本処理を終了する。

なお、上記は、ユーザが設定したユーザ類似度に対応する合成ハッシュ距離の上限を上回るデータペアも計算対象とするが、合成ハッシュ距離を尤度関数と捉えて、サンプリング手法を用いることもできる。さらに、上記では、全ての類似度をハッシュ距離に置き換えたが、誤差の大きい類似度や計算量が小さい類似度については、そのまま真の類似度を用いてもよい。

図１２を用いて、近似精度の算出処理を詳しく説明する。本処理は、例えば、関連性抽出部１５Ｆ３が行うことができるが、ここでは解析システム２の解析用計算機１５を動作主体として説明する。

解析用計算機１５は、近似類似度行列の範囲に含まれるデータペアをランダムに１つサンプリングする（ステップ１Ｓ６０１）。解析用計算機１５は、サンプリングしたデータペアが計算済みか確認する（ステップ１Ｓ６０２）。

近傍集合に属さないデータに０を設定する場合（図１１のステップ１Ｓ５０６）、解析用計算機１５は、サンプリングしたデータペアに対応する近似類似度行列の値が０でなければ、サンプリングしたデータペアは計算済みであると判断できる。サンプリングしたデータペアがすでに計算済みの場合（１Ｓ６０２：ＹＥＳ）、解析用計算機１５はステップ１Ｓ６０４に移動し、そうでない場合（１Ｓ６０２：ＮＯ）はステップ１Ｓ６０３に移動する。

ステップ１Ｓ６０１でサンプリングしたデータペアを計算済みでない場合（ステップ１Ｓ６０２：ＮＯ）、解析用計算機１５は、そのデータペアのユーザ類似度を計算する（ステップ１Ｓ６０３）。

サンプリングしたデータペアを計算済みである場合（ステップ１Ｓ６０２：ＹＥＳ）、もしくは、ステップ１Ｓ６０３の処理後、解析用計算機１５は、その計算結果と近似類似度行列のうちの該当する要素との差を計算する（ステップ１Ｓ６０４）。

図１１のステップ１Ｓ５０６で０を設定している場合、ステップ１Ｓ６０２での判定結果がＹＥＳなら差分は０となり、判定結果がＮＯならユーザ類似度の値となる。

解析用計算機１５は、差の絶対値の累積値を計算する（ステップ１Ｓ６０５）。すなわち、解析用計算機１５は、初期値を０として、ステップ１Ｓ６０４で算出した差の絶対値を累計する。

解析用計算機１５は、近似類似度行列に対して、新たに計算したユーザ類似度（真の値）を設定する（ステップ１Ｓ６０６）。すでに真の値が設定されている場合には、ステップ１Ｓ６０６の処理は不要である。

解析用計算機１５は、予め設定された指定回数（Ｎ回）だけ図１２の処理を実行したかを確認する（ステップ１Ｓ６０７）。もし実行回数がＮ回に達していない場合（１Ｓ６０７：ＮＯ）、ステップ１Ｓ６０１に戻る。そうでない場合は本処理を終了する。本実施例ではＮ＝１００に設定するが、この値は例示であり、１００に限定しない。

図１３〜１５を用いて、ユーザインターフェースの構成を説明する。図１３は、ユーザが、ユーザ類似度を定義するためのユーザ類似度定義インターフェースの例である。

ユーザ類似度定義インターフェースは、解析用計算機１５のユーザインターフェース部１５Ｆ５に表示される。ユーザ類似度定義インターフェースは、例えば、観点リスト１Ｇ１０１と、観点選択ボタン１Ｇ１０２と、観点選択解除ボタン１Ｇ１０３と、選択観点リスト１Ｇ１０４と、類似度下限設定コンボボックス１Ｇ１０５と、クラスタリング設定ボタン１Ｇ１０６と、解析ボタン１Ｇ１０７を備える。

ユーザは、ユーザ類似度定義インターフェースの利用に先立って、解析対象の設備などを指定する。ユーザは、予め用意されている観点の中から、所望の観点を指定することができる。すなわち、観点リスト１Ｇ１０１は、ハッシング方法データ管理部１４Ｆ１に登録された各データ項目に関する観点を表示する。ユーザは、関連（遠近）を解析したい観点を選んで、観点を選択するためのボタン１Ｇ１０２を操作する。これにより、ユーザの選択した観点は、選択した観点をリスト表示する選択観点リスト１Ｇ１０４に追加されて表示される。ユーザは、選択観点リスト１Ｇ１０４に表示した観点のうち解析対象から外したい観点がある場合、その外したい観点を選択し、選択を解除するための観点選択解除ボタン１Ｇ１０３を操作する。これにより、ユーザの選択した観点は、選択観点リスト１Ｇ１０４から除外される。

ユーザは、解析対象として選択した各観点について、それぞれの重みを指定する。すなわち、ユーザは、選択観点リスト１Ｇ１０４内のスライダ１Ｇ１０４ａを操作することで、各観点ごとに重みを設定することができる。ユーザが解析対象の観点とその重みを決定することで、ユーザ類似度が定義される。

ユーザは、類似度下限設定コンボボックス１Ｇ１０５において、真の類似度を計算するかどうかを決めるための閾値である類似度下限を設定する。本実施例では、上述の通り、局所鋭敏性ハッシュを用いて近似的に求めた類似度が類似度下限以上の場合、真の類似度を計算する。

ユーザは、クラスタリングを設定するためのクラスタリング設定ボタン１Ｇ１０６を操作することで、クラスタリングの内容を設定することができる。例えば、ユーザがクラスタリング設定ボタン１Ｇ１０６を操作すると、図示せぬクラスタリング設定画面に移行するか、もしくは図示せぬクラスタリング設定画面がユーザ類似度定義インターフェースと共に表示される。ユーザは、クラスタリング設定画面において、例えば、クラスタリングアルゴリズムの選択、クラスタ数などの各種パラメータを設定する。

最後に、ユーザが解析ボタン１Ｇ１０７を操作すると、一連の関連性の解析処理が開始される。解析処理が終了したのち、解析用計算機１５のユーザインターフェース部１５Ｆ５は、図１４で後述する解析結果の表示インターフェースと、図１５で後述するユーザ類似度の履歴表示インターフェースとを表示する。

図１４を用いて、解析結果の表示インターフェースを説明する。解析結果の表示インターフェースも、ユーザ類似度定義インターフェースと同様に、解析用計算機１５のユーザインターフェース部１５Ｆ５で表示される。

解析結果の表示インターフェースは、例えば、クラスタリング結果１Ｇ２０１と、類似度行列精度評価結果テキストボックス１Ｇ２０２と、類似度下限設定コンボボックス１Ｇ２０３と、再解析ボタン１Ｇ２０４と、類似度再定義ボタン１Ｇ２０５と、精度評価ボタン１Ｇ２０６とを備える。

ユーザは、クラスタリング結果１Ｇ２０１の表示を確認することで、データがどのようにクラスタリングされているかを確認できる。なお、クラスタリング結果は、表示データ作成部１５Ｆ４によって、次の手順で表示される。

まず、各クラスタについて、自分と他の点との類似度の和が最も大きい点を選択し、これをクラスタの代表点とする。次に、各クラスタの代表点に対して多次元尺度構成法により、２次元空間での座標（クラスタ原点）を決める。さらに、各クラスタ内で同様に、多次元尺度構成法により座標を求め、前記クラスタ原点を基準に配置する。クラスタの各データ点の（クラスタリング結果１Ｇ２０１内の点線枠）が重なる場合、クラスタ内での座標の大きさを縮小（１／Ｎ倍等）することで重ならないように表示できる。

ユーザが精度評価ボタン１Ｇ２０６を押すと、図１２で述べたように、データペアを所定数Ｎだけサンプリングする精度評価が実行される。これにより、近似類似度行列の評価結果は、類似度行列の精度を評価した結果を示すためのテキストボックス１Ｇ２０２に表示される。

さらに、ユーザは、類似度下限設定コンボボックス１Ｇ２０３の値を再設定し、再解析ボタン１Ｇ２０４を操作することで、類似度下限を変更して関連性を再計算させることができる。この場合、解析データとして、類似度番号は変更されずに試行番号だけがインクリメントされた結果が計算される。すなわち、ユーザ類似度定義を変えずに類似度下限だけを変更して、解析をやり直すことができる。

ユーザは、類似度を再定義するボタン１Ｇ２０５を操作することで、図１３に示すユーザ類似度定義インターフェースに戻り、類似度を再定義することができる。

図１５を用いて、ユーザ類似度の履歴表示インターフェースを説明する。ユーザ類似度の履歴表示インターフェースも、解析用計算機１５のユーザインターフェース部１５Ｆ５で表示される。ユーザ類似度の履歴表示インターフェースは、例えば、類似度関係モニタ１Ｇ３０１と、類似度定義確認リスト１Ｇ３０２を備える。

ユーザは、類似度関係モニタ１Ｇ３０１を確認することで、各類似度（各類似度番号１Ｄ３０１について、試行番号１Ｄ３０２の最も大きいもの）の関係を確認できる。

なお、類似度関係は、表示データ作成部１５Ｆ４により、次の手順で表示される。各類似度（類似度番号１Ｄ３０１）のペアについて、近似類似度行列のフロベニウスノルムをそれぞれ計算する。そして、各ペアのフロベニウスノルムに基づいて、多次元尺度構成法により、２次元データを構成する。

ユーザが類似度関係モニタ１Ｇ３０１で表示された点を指定すると、措定した点に対応する類似度（類似度番号１Ｄ３０１）の定義１Ｄ３０３が類似度定義確認リスト１Ｇ３０２に表示される。ユーザは、これを利用して、全体の類似度がどう定義されているか、あるいは、次にどのように類似度を定義をすればよいかなどを検討できる。

なお、上記では、類似度空間上のデータや類似度行列の関係を画面に表示するにあたって、すなわち、１次元データを２次元（以上）に拡張するにあたって、多次元尺度構成法を用いた。しかし、多次元尺度構成法に限らず他の方法、例えば、ばねモデルを使った方法などを用いてもかまわない。また、近似類似度行列の差としてフロベニウスノルムを使ったが、他の尺度を用いても構わない。

このように構成される本実施例によれば、ユーザは、予め用意された複数の観点の中から所定の観点を選択し、選択した所定の観点に基づいて元データ間の関連性を解析させることができる。ユーザは、選択する観点を変更したり、類似度下限を変更したりすることで、種々の解析を行うことができる。

さらに、本実施例では、元データから局所鋭敏性ハッシュを算出し、ハッシュのハミング距離に基づいて、データ間の類似度を近似的に算出し、類似度が閾値としての類似度下限以上である場合に、真の類似度を演算する。

このように本実施例では、データの関連性を試行錯誤で調べる場合において、少ない計算量で速やかに解析することができる。従って、本実施例では、関連性の解析作業の効率を向上することができる。

また、本実施例では、ユーザ類似度定義を変えたり、類似度下限を変えたりして試行錯誤した解析結果の履歴を比較可能に表示する。従って、ユーザは、どのように定義すればどのようにクラスタリングされるのかなどを学習することができ、適切な解析作業に役立てることができる。

上述のように、本実施例によれば、ユーザが監視システム１１や設備１２のデータに対して柔軟に関連を定義でき、すなわち、ユーザ類似度を定義でき、かつ、高速にその関連性を抽出できる。この結果、本実施例によれば、ユーザが関連について知見を持っていない場合、あるいは未知の問題を解析する場合でも、関連性を効率的に解析できる。

本実施例では、ユーザ類似度に対応する合成ハッシュ距離が距離の公理を満たすように定義される。この結果、本実施例によれば、探索時（ＶＰ−ＴｒｅｅのノードリーフやＬＡＥＳＡの処理）に、三角不等式に基づいて探索範囲を削減できるため、解析に要する処理を高速化できる。

本実施例では、近似類似度行列を作成する際、類似度下限を下回る行列要素には０を割り当てるため、近似類似度行列は０を多く含む状態、すなわちスパース状態となる。この結果、本実施例によれば、スペクトラルクラスタリングやＳＭＩクラスタリングなどの、行列の固有値や固有ベクトルを求めるタイプのクラスタリング処理を高速化できる。

本実施例では、ユーザ類似度に設定される類似度下限を下回るようなデータペアの関連性については、局所性鋭敏なハッシュによる計算を実行しないか、あるいは近似値に置き換えることができる。

この結果、解析対象データが多い場合、ユーザは、ある程度見当がつくまでは類似度下限を厳しく設定して高速に計算し、そして最終的には類似度下限を緩く設定して、解析精度を向上することができる。また、その際に、図１４で示したように、サンプリングによって近似類似度行列の精度を評価できる。

本実施例では、図１５で示したように、複数のユーザ類似度に基づく解析結果の関係を可視化して表示できるため、ユーザは次にどのような定義を試せばよいかなどを効果的に学習でき、何度も同じような定義をしないでよいので、試行錯誤を伴う解析作業を効率化できる。

ここで、真の類似度を算出する式と、ハッシュで近似距離を求める式を説明する。最初に以下に述べる各式の変数を説明する。_i はインデックスを表す添え字である。
x,y：任意の特徴ベクトル。ステップ１Ｓ１０２で生成される。ベクトルの次元は、データに依存する。
S(x,y)：ユーザ類似度関数(真の類似度)。定義は後述。
S_i(x,y)：データ項目ＩＤ(１Ｄ１０１)がｉの類似度。詳細は１Ｄ１０５によって指定される。
Hd(x,y)：合成ハッシュ距離(関数)。真の類似度の性質を近似する。定義は後述。
Hd_i(x,y)：データ項目ＩＤ(１Ｄ１０１)がｉの類似度(S_i(x,y))に対応するハッシュ距離(関数)。ハッシング方法(１Ｄ１０３)と、ハッシングパラメータ(１Ｄ１０４)により指定される。
W_i：データ項目ＩＤ(１Ｄ１０１)がｉの類似度に対する重み。図１３のユーザインターフェースでユーザに指定される０以上の値。データ管理上、ユーザ類似度定義情報(１Ｄ３０３)に対応。

真の類似度は、下記式１に示す用に、各類似度に重みをかけたものの和、すなわち、重みつき線形和として求めることができる。
S(x,y) = W_0 * S_0(x,y) + W_1 * S_1(x,y) +...
= Σ{W_i * S_i(x,y)}・・・・・（式１）

S_i(x,y) = α_i / (1+Hd_i)と置き換えることで、下記式２に示すように、合成ハッシュ距離関数を定義(生成)する。
Hd(x,y) = Σ{W_i * α_i / (1+Hd_i(x,y))}・・・・（式２）

図１６および図１７を用いて第２実施例を説明する。本実施例は、第１実施例の変形例に該当するため、第１実施例との相違を中心に説明する。

特定期間に電力需要が集中することをピーク需要と呼ぶ。ピーク需要の発生は、発電設備や送電設備の稼働率を低下させる。また、ピーク需要に対応するためにガスタービン発電設備の導入を強いられたりする。しかし、ガスタービン発電設備は、応答は早いが燃費が悪い。

そこで、電力需要を制御することでピーク需要を分散（シフト）させるという、需要応答（デマンドレスポンス、ＤＲ）と呼ばれる技術が近年注目されている。ＤＲには、複数の方式がある。一つの方式では、事前の契約に基づいて、電気機器の電力消費を直接抑制する。他の一つの方式では、ピーク需要の発生が予測されると、その発生予測時刻での電力消費の抑制を消費者に依頼し、その依頼を受託した消費者だけが電力消費を自発的に抑制する。

後者の方式を採用する場合、各消費者が消費電力の低減依頼を受託するかどうか、どれだけの規模（消費電力量）で受託するか、といった特性を把握する必要がある。すなわち、同程度の電力消費規模で、かつ同程度の受託率を有する消費者をグループ化し、それらグループに応じたサービスを提供する。例えば、各グループの特性に応じて、電力需要の抑制に関する契約内容を設定したり、依頼を受託したときのインセンティブを設定したりする。インセンティブとしては、例えば、電力代金の割引、駐車や買い物などに利用できる電子的または物理的クーポンの発行などがある。このように事前に消費者をグループ化してサービス内容を適切に設計すれば、必要にして十分な範囲で確度の高いＤＲを実施することができる。

そこで、本実施例では、適切なサービス設計のために、消費者をグループ化する場合、すなわちクラスタリングする場合を例に挙げて説明する。以下に述べるように、本実施例によれば、未知の消費者であっても、電力消費の動向や受託率の傾向が似ているグループに分類することができる。

図１６は、本実施例に係るデータ関連性解析システムの全体構成を示す。図１６に示すようにデータ関連性解析システムは、例えば、各消費者が所有するビルシステム３と、ホームシステム４と、アグリゲータが所有する解析システム５とを備える。ビルシステム３とホームシステム４と解析システム５とは、インターネット等の通信ネットワークＮ１を介して接続される。アグリケータとは、ＤＲを実行する事業者である。

ビルシステム３のうち本実施例に関わる部分の構成は、第１実施例の制御システムと同様なので説明を省略する。ホームシステム４は、一般家庭に設けられるもので、設備１２と、ＧＷ装置１３ｂとを備える。設備１２とＧＷ装置１３ｂとは、ホームネットーワークＮ２ｂを介して接続される。

解析システム５は、ＧＷ装置１３ｃと、データ管理計算機１４と、解析用計算機１５を備える。ＧＷ装置１３とデータ管理計算機１４と解析用計算機１５とは、通信ネットワークＮ３を介して接続される。

ＧＷ装置１３、データ管理計算機１４、解析用計算機１５は、第１実施例と同様であるため説明を省略する。ホームシステム４のＧＷ装置１３ｂは、第１実施例のＧＷ装置１３からハッシュ生成部１３Ｆ２を除いた構成である。

図１６に示す各機能とハードウェアとの関係は、第１実施例と同様であるため説明を省略する。解析システム５で管理するデータ構造は、第１実施例と基本的に同様であるが、相違を説明する。本実施例では、ビルシステム３やホームシステム４の各ＧＷ装置は、契約電力量、プラン、場所などの基本情報と、時間ごとの消費電力量の時系列データなどの消費情報と、依頼応答時間、依頼節電量、応答の受託率、依頼応答直後の消費電力量の時系列データなどのＤＲ実績情報とを、収集する。

本実施例の動作は、第１実施例と基本的に同様である。第１実施例との相違を以下に説明する。

１つ目の違いは、ホームシステム４で収集されたデータからハッシュを生成する処理にある。ＧＷ装置１３ｂはハッシュ生成部を持たないため、解析システム５のＧＷ装置１３ｃが代わりにハッシュを生成する。すなわち、本実施例では、ホームシステム４の処理負荷を軽減したりコストを低減したりするために、ホームシステム４にハッシュ生成部１３Ｆ２を設けず、解析システム５にハッシュ生成を代行させる。なお、ビルシステム３のＧＷ装置１３は、その内部のハッシュ生成部１３Ｆ２でハッシュを生成する。

２つ目の違いは、ＤＲ実績情報の欠損に対する処理の追加である。一般的に、各消費者へのＤＲの依頼は、電力需給が逼迫した場合になされるものであり、日常的に依頼するものではない。従って、一度もＤＲの依頼に応答したことがない消費者が無視できない規模で存在する。

そこで、解析システム５は、定期的に、応答実績のない消費者について、もしその消費者にＤＲを依頼した場合に得られるはずの応答特性を推定する。すなわち、解析システム５は、データ管理計算機１４で管理されている収集データのうち、ＤＲ実績情報のある消費者の情報をもとに、ＤＲ実績情報のない消費者のＤＲ応答特性を推定する。

この処理について図１７を用いて説明する。解析システム５のハッシュ生成部１３Ｆ２は、ＤＲ実績情報のある消費者について、例えばＤＲ依頼に応答した時間、ＤＲ依頼時に実行した節電量、ＤＲ依頼に応答した直後における消費電力量の時系列データなどに基づいてクラスタリングを行い、複数のグループに分ける。そして、解析システム５は、各グループを識別するためのグループ番号を、消費者のＤＲ応答特性を表すラベルとする（ステップ２Ｓ１０１）。このラベルをＤＲ特性ラベルと呼ぶ。

なお、ＤＲ応答特性は、例えば同じグループ内の応答時間、節電量、応答の受託率、依頼応答直後の消費電力量の時系列データの平均や分散として、数値で表現でき、サービス設計などに活用できる。

解析システム５は、消費者の基本情報や消費情報から、各消費者の関連を示す関連ネットワークを生成する（ステップ２Ｓ１０２）。解析システム５は、例えば、消費者の位置（例えば、消費者の属する地区の緯度経度）、契約電力、平日の消費電力量の平均や分散、休日の消費電力量の平均値や分散から、ベクトルを作成できる。解析システム５は、それらのベクトルに基づいて、適切に重み付けされた類似度を取得し、その類似度を用いて消費者間の類似性を判定できる。

解析システム５は、関連ネットワーク上で隣接するノードは同じラベルを持つと仮定して、ラベル伝搬法を用いてＤＲ情報のない消費者にＤＲ特性ラベルを推定する（ステップ２Ｓ１０３）。種々のラベル伝搬法を用いることができる。例えば、関連ネットワークに関するラプラシアン行列をＬとするとき、Ｉ＋σＬで得られる解をラベルに割り当てる方法を用いることができる。

ユーザが利用するユーザインターフェースは、第１実施例と同様であるため、説明を省略する。

なお、本発明は、上述した実施形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。

１：制御システム、２、５：解析システム、３：ビルシステム、４：ホームシステム、１３，１３ｂ，１３ｃ：ゲートウェイ装置、１４：データ管理計算機、１５：解析用計算機、１３Ｆ１：収集部、１３Ｆ２：ハッシュ生成部、１３Ｆ３：転送部

Claims

データ間の関連性を解析するデータ関連性解析システムであって、
各元データに対し所定演算を適用することで、前記各元データ間の類似度を近似的に算出するために使用する近似値を生成する近似値生成部と、
前記各元データに対応する前記各近似値に基づいて、前記各元データ間の関連性を演算する関連性演算部と、
前記関連性演算部による演算結果を出力する演算結果出力部と、
を備え、
前記関連性演算部は、
予め用意された複数の観点の中から選択した所定の観点ごとに前記各元データの前記近似値同士の距離を算出し、
前記近似値同士の距離が所定の閾値以下である場合は、前記各近似値に対応する前記各元データに基づいて前記各元データ間の類似度を算出し、
前記近似値同士の距離が前記所定の閾値を越える場合は、前記各近似値に対応する前記各元データ間の類似度を前記近似値同士の距離以下の所定値として算出し、
前記算出した各類似度に基づいて前記各元データをクラスタリングすることで前記各元データ間の関連性を演算する、
データ関連性解析システム。
前記所定演算は、前記元データ間の類似度を保存するハッシュ演算である、請求項１に記載のデータ関連性解析システム。
前記関連性演算部は、三角不等式の条件に基づいて探索範囲を限定し、前記探索範囲内において、前記各元データ間の関連性を演算する、
請求項２に記載のデータ関連性解析システム。
前記所定の閾値は、ユーザにより指定される類似度に基づいて算出される、請求項３に記載のデータ関連性解析システム。
前記近似値生成部は、前記元データが所定の発生条件が成立するたびに生成される時系列データである場合、前記関連性演算部は、所定期間内に発生した全ての前記元データに基づいて特徴ベクトルを算出し、前記算出した特徴ベクトルをクラスタリングして代表ベクトルを算出し、前記代表ベクトルに対して前記所定演算を行うことで、前記近似値を生成する、請求項４に記載のデータ関連性解析システム。
前記近似値生成部は、前記各元データ間の発生時刻の時間差に基づいて前記特徴ベクトルを算出する、請求項５に記載のデータ関連性解析システム。
前記関連性演算部は、前記近似値を用いて算出した類似度の評価結果を出力する、請求項６に記載のデータ関連性解析システム。
前記関連性演算部は、前記各元データの中からサンプリングした所定の複数の元データ間について算出した類似度と、前記近似値を用いて算出した類似度との相違を評価して出力する、
請求項７に記載のデータ関連性解析システム。
前記関連性演算部は、前記所定の観点または前記所定の閾値を変えて繰り返し前記各元データ間の関連性を演算することができ、
前記演算結果出力部は、前記関連性演算部による前記各元データ間の関連性の演算結果の履歴を出力する、
請求項７に記載のデータ関連性解析システム。
前記各元データのうち一方の元データは、電力需給調整の実績値を有する一方の需要家に関するデータであり、前記各元データのうち他方の元データは、前記電力需給調整の実績値を有していない他方の需要家に関するデータであり、
前記関連性演算部は、前記各元データ間の関連性として、前記一方の需要家により形成される電力需給調整クラスタのうちいずれのクラスタに前記他方の需要家が属するかを演算する、
請求項１に記載のデータ関連性解析システム。
前記近似値生成部は、データを計測する計測装置側に配置されており、
前記関連性演算部および前記演算結果出力部は、前記計測装置と通信可能に設けられる計算機側に設けられる、
請求項１に記載のデータ関連性解析システム。
データ間の関連性を解析するための計算機に通信可能に接続されるデータ管理装置であって、
各元データを収集する収集部と、
前記各元データに対し所定演算を適用することで、前記各元データ間の類似度を近似的に算出するために使用する近似値を生成する近似値生成部と、
前記各元データと該各元データから生成した前記各近似値とを対応づけて前記計算機に転送する転送部とを備え、
前記各元データおよび前記各近似値を受領した前記計算機は、
予め用意された複数の観点の中から選択した所定の観点ごとに前記各元データの前記近似値同士の距離を算出し、
前記近似値同士の距離が所定の閾値以下である場合は、前記各近似値に対応する前記各元データに基づいて前記各元データ間の類似度を算出し、
前記近似値同士の距離が前記所定の閾値を越える場合は、前記各近似値に対応する前記各元データ間の類似度を前記近似値同士の距離以下の所定値として算出し、
前記算出した各類似度に基づいて前記各元データをクラスタリングすることで前記各元データ間の関連性を演算する、
データ管理装置。