JP6210867B2 - データ関連性解析システムおよびデータ管理装置 - Google Patents

データ関連性解析システムおよびデータ管理装置 Download PDF

Info

Publication number
JP6210867B2
JP6210867B2 JP2013252249A JP2013252249A JP6210867B2 JP 6210867 B2 JP6210867 B2 JP 6210867B2 JP 2013252249 A JP2013252249 A JP 2013252249A JP 2013252249 A JP2013252249 A JP 2013252249A JP 6210867 B2 JP6210867 B2 JP 6210867B2
Authority
JP
Japan
Prior art keywords
data
original data
similarity
relevance
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013252249A
Other languages
English (en)
Other versions
JP2015109028A (ja
Inventor
慶行 但馬
慶行 但馬
智之 望月
智之 望月
志村 明俊
明俊 志村
隆之 武沢
隆之 武沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013252249A priority Critical patent/JP6210867B2/ja
Publication of JP2015109028A publication Critical patent/JP2015109028A/ja
Application granted granted Critical
Publication of JP6210867B2 publication Critical patent/JP6210867B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、データ関連性解析システムおよび方法に関する。
例えば、電力管理システム、水道管理システム、道路交通システム、列車運行管理システムなどの各種社会基盤に代表されるシステムでは、その運用や保守のためにデータを計測して管理する。そのようなシステムでは、設備で検出したセンサ値、設備の動作ログ、設備で生じたアラーム等の多種多様なデータを特定の観点で整理することで、評価指標や関係グラフを作成する。システム管理者は、それら評価指標や関係グラフを監視することで、迅速にトラブルシューティングなどを行う。
システムを適切に管理するためには、システム構成や解析内容に応じた、評価指標や関係グラフを構築する必要がある。このため、特許文献1では、アラームの発生時刻の相互相関関数を用いてアラームをクラスタリングすることで、時間的な因果関係を含む関係グラフを作成する。特許文献1では、アラーム同士の関連を相互相関関数で測ることができる場合、連鎖的に発生するアラームを解析することができる。
一方、着目すべき変数が多数存在する状況において、主成分分析を用いた多変量統計的プロセス管理手法も提案されている。特許文献2に記載の手法では、データに対して主成分分析を行い、その主成分に基づく空間上でのデータの統計量を評価指標とすることにより、定常と異常とを判別する。なお、特許文献2では、主成分分析を用いた多変量統計的プロセス管理手法に対して、解析者(オペレータ)には、もとの変数で異常を監視する技術が開示されている。
ところで昨今では、DSM(Demand Side Management)に代表される、利用者に応じたサービス(例えば節電によるDR(Demand Response))などが検討されている。そのようなサービスメニューを構築するために、利用者および利用者の保持する設備に関する関連性の解析が新たに求められるであろう。
特開2005−216148号公報 国際公開第2012/090937号
特許文献1記載の技術は、限定された知見またはノウハウを自動化したに過ぎない。従って、特許文献1記載の技術では、データ間の関連をそれらの発生時刻に関する相互相関関数だけでは測れない場合、それらデータ間の関連性を解析できない可能性がある。例えば、対象とする各データが設備の設置場所に依存する場合、関連性を解析することができない。
一方、特許文献2記載の技術では、設置場所などの他の変数も考慮できる。ただし、特許文献2の技術では、データの関連(データの遠近)として、共分散もしくは相関係数を前提としている。このため、特許文献2の技術では、間隔尺度で測定できるデータ同士でなければ、関連を解析することはできない。
ところが、実際には設備の型式等のように、間隔尺度では測れない項目が多くある。同じ性質の項目同士ならば、予め妥当な相関を定義することも可能である。しかし、複数の異なる性質の項目がある場合、それら項目同士の関係を決定するのは難しい。
既知の問題もしくは同種の問題の解析については、もしもデータ間の関連についての教師データが得られるならば、ベイジアンネットワーク等に代表される、統計的な教師あり学習手法を使うことで対応できる可能性がある。
しかし、教師データが得られない場合、もしくは未知の問題を解析する場合は、データ間の関連の定義、および、データ間の関係を予め一つに決めることはできない。これらの場合は、解析者が試行錯誤しながら定義や関係を決めるしか方法はない。
解析者による試行錯誤を前提とした場合、特許文献1および2に記載の従来技術では、データ間の関連の定義を変えるたびに、全てのデータペアについての相関を計算する必要がある。その計算が相互相関関数のような比較的処理負荷の大きい計算を内包する場合、その計算に要する計算機リソースは大きくなる。実際には、このような試行錯誤を伴う解析作業は、パーソナルコンピュータなどで行われることが多いため、計算機リソースの増大は無視できない。
他方、多くの場合、関連が比較的に小さいデータペアは解析の興味の範疇でない。すなわち、関連がある種の類似度として定義される場合、類似度の小さいデータペアの計算は、無視もしくは近似しても、解析結果に大きな影響を与えない可能性が高い。
本発明は、上記課題に鑑みてなされたもので、データを解析する条件を柔軟に設定することができ、かつ、高速にデータ間の関連性を解析することができるようにしたデータ関連性解析システムおよびデータ管理装置を提供することにある。
上記課題を解決すべく、本発明に従うデータ関連性解析システムは、データ間の関連性を解析するデータ関連性解析システムであって、各元データに対し所定演算を適用することで、各元データ間の類似度を近似的に算出するために使用する近似値を生成する近似値生成部と、各元データに対応する各近似値に基づいて、各元データ間の関連性を演算する関連性演算部と、関連性演算部による演算結果を出力する演算結果出力部と、を備え、関連性演算部は、予め用意された複数の観点の中から選択した所定の観点ごとに各元データの近似値同士の距離を算出し、近似値同士の距離が所定の閾値以下である場合は、各近似値に対応する各元データに基づいて各元データ間の類似度を算出し、近似値同士の距離が所定の閾値を越える場合は、各近似値に対応する各元データ間の類似度を近似値同士の距離以下の所定値として算出し、算出した各類似度に基づいて各元データをクラスタリングすることで各元データ間の関連性を演算する。
本発明によれば、予め用意された複数の観点の中から選択する所定の観点に基づいて、元データ間の関連性を演算させることができる。従って、所定の観点を変更することで、種々の解析を行うことができる。さらに、本発明によれば、元データの近似値から算出する距離に基づいて、類似する可能性の高い元データのペアを速やかに抽出することができ、類似する可能性の低い元データのペアについては類似度を小さく設定して、解析対象から実質的に除外することができる。これにより、本発明によれば、柔軟かつ高速にデータ間の関連性を解析することができる。
データ関連性解析システムの全体構成を示す説明図である。 ハードウェア要素の構成例を示す説明図である。 ハッシング方法を管理するテーブルの構成例である。 制御システムから収集したデータを管理するテーブルの構成例である。 データ間の関連性を解析したデータを管理するテーブルの構成例である。 ハッシュデータを生成する処理のフローチャートである。 データ間の関連性を解析する処理のフローチャートである。 時系列データのハッシュを生成する処理のフローチャートである。 時系列データを特徴ベクトルに変換する処理のフローチャートである。 時系列データを特徴ベクトルに変換する様子を示す説明図である。 近似類似度行列を生成する処理のフローチャートである。 近似精度を算出する処理のフローチャートである。 ユーザ類似度を定義する画面例を示す説明図である。 解析結果を表示する画面例を示す説明図である。 ユーザ類似度の履歴を表示する画面例を示す説明図である。 第2実施例に係り、データ関連性解析システムを消費電力の需要調整システムに適用した場合の例を示す説明図。 消費者のDR応答特性を推定する処理のフローチャート。
以下、図面に基づいて、本発明の実施の形態を説明する。以下に述べるように、本実施形態は、近似値生成部としての第1処理手段と、関連性演算部としての第2処理手段とを含む。第1処理手段は、各元データ(以下、データとも呼ぶ)に対して、データ間の距離または類似度を保存するハッシュを算出する。ハッシュは「近似値」に該当する。第2処理手段は、データ解析者(以下、ユーザとも呼ぶ)の設定するユーザ類似度に基づいて類似度行列を作成し、その類似度行列に基づいて各データをクラスタリングする。ユーザは、分析したい観点を表す関連を定義することで、ユーザ類似度を設定できる。
第2処理手段は、ユーザ類似度関数に対応するハッシュから距離関数(合成ハッシュ距離関数)を算出し、距離の値が近い場合は真の類似度を計算する。第2処理手段は、前記距離の値が遠い場合は前記距離の値以下に設定される所定値を割り当てる。所定値は、例えば、0または前記距離の値に設定することができる。
本実施形態によれば、ユーザは、システムや設備などのデータに対して、柔軟に関連(もしくは遠近)を定義することができ、かつ、高速にデータ間の関連性を抽出することができる。従って、ユーザがデータ間の関連(遠近)に関する知識や経験を十分に持っていない場合でも、あるいは、未知の解析問題である場合でも、データ間の関連性を迅速に解析することができ、解析作業の効率が向上する。
図1は、データ関連性解析システムの全体構成を示す。本実施例では、例えば発電設備または変電設備などの制御システム1における異常検知または予兆診断のために、それら設備12ならびに監視システム11のデータの関連性を解析(クラスタリング)する。これにより、本実施例では、制御システム1の定常状態を定義し、新たに取得したデータが定常状態からどれだけかけ離れているかを評価することで、異常検知または予兆診断を行う。この結果、本実施例では、制御システム1の運用および保守についてのコストを低減することができる。
本実施例では、所定のタイミングで、制御システム1の定常状態を定義するために、監視システム11や設備12のデータから関連性を解析する場合を説明する。所定のタイミングとは、例えば、上述した異常検知または予兆診断に先立つタイミング、あるいは、設備12または監視システム11を更新するタイミング、ユーザの指示したタイミングなどである。
図1に示すように、データ関連性解析システムは、一つ以上の制御システム1と一つ以上の解析システム2とを通信ネットワークN1で接続することで構成される。通信ネットワークN1は、例えばインターネットあるいは専用通信網などである。
制御システム1は、監視システム11と、設備12と、GW(Gateway)装置13とを備える。なお、各要素11,12,13は複数であってもよい。また、制御システム1自体が複数存在してもよい。物理的に遠く離れた場所に分散する複数の制御システム1を通信ネットワークN1で接続する構成でもよい。
監視システム11は、例えば、設備12の設置された工場やプラントなどの各種状態を監視して信号を出力する。設備12は、例えば、発電機、変圧器、電動機、冷却器などの各種設備であり、例えば電圧値、電流値、振動、温度、湿度、圧力、流量、重量などのセンサ値を出力する。GW装置13は、監視システム11あるいは設備12から取得したデータを前処理して解析システム2に送信する。GW装置13の構成例は後述する。
監視システム11と設備12とGW装置13とは、例えば、Ethernet(登録商標)などを用いた制御システムネットーワークN2を介して接続される。
解析システム2は、例えば、データ管理計算機14と解析用計算機15を備える。データ管理計算機14と解析用計算機15とは、解析システムネットーワークN3を介して接続される。
各計算機14、15はそれぞれ複数ずつ存在してもよいし、一つの計算機内にデータ管理計算機14の機能と解析用計算機15の機能とを設けてもよい。さらに、ユーザに情報を提示したり、ユーザからの入力を受け付けたりするための操作端末を設けてもよい。なお、解析システム2が複数存在する構成でもよい。
なお、上記の構成は一例であって、複数の通信ネットワークN1、N2、N3を一つの通信ネットワークとして構成してもよいし、あるいは、各通信ネットワークN1、N2、N3の少なくとも一部を階層化ネットワークとして構成してもよい。
制御システム1の機能構成を説明する。GW装置13は、収集部13F1と、ハッシュ生成部13F2と、転送部13F3とを備える。収集部13F1は、監視システム11および設備12から、データを収集する機能である。
ハッシュ生成部13F2は、「近似値生成部」の一例であって、収集部13F1の集めたデータからハッシュを生成する機能である。「近似値」の一例であるハッシュは、データ間の類似度あるいは距離を保存しており、局所性鋭敏なハッシュとも呼ばれる。転送部13F3は、ハッシュ生成部13F2で作成したハッシュと収集部13F1の収集したデータ(元データ)とを対応づけて、解析システム2のデータ管理計算機14に転送する機能である。
解析システム2の機能構成を説明する。データ管理計算機14は、例えば、ハッシング方法データ管理部14F1と、収集データ管理部14F2と、ハッシュ関数生成部14F3とを備える。
ハッシング方法データ管理部14F1は、ハッシュ生成部13F2が各データ項目(例えば、センサ値、監視アラームなど)に対して適用するハッシュ生成方法についてのデータを管理する。収集データ管理部14F2は、GW装置13から受領した、監視システム11や設備12のデータおよびそのハッシュを管理する機能である。ハッシュ関数生成部14F3は、例えばスペクトラルハッシングのようなデータに基づいてハッシュを生成する場合に、そのためのハッシュ関数を生成する機能である。
解析用計算機15は、例えば、合成ハッシュ関数距離定義部15F1と、類似度行列作成部15F2と、関連性抽出部15F3と、表示データ作成部15F4と、ユーザインターフェース部15F5と、解析データ管理部15F6とを備える。
合成ハッシュ関数距離定義部15F1は、ユーザが設定した類似度(ユーザ類似度)に対応する合成ハッシュ距離を定義する機能である。類似度行列作成部15F2は、合成ハッシュ距離と収集したデータとを用いて、近似類似度行列を生成する機能である。関連性抽出部15F3は、作成された近似類似度行列を使って、データ間の関連性を抽出する機能である。
表示データ作成部15F4は、関連性抽出部15F3が抽出した関連性の解析結果および状況などの表示データを作成する機能である。ユーザインターフェース部15F5は、ユーザがユーザ類似度を解析用計算機15に入力したり、データ間の関連性の解析結果および状況などをユーザに提示したりするための機能である。解析データ管理部15F6は、データ間の関連性の解析結果を管理する機能である。
「関連性演算部」は、例えば合成ハッシュ関数距離定義部15F1と、類似度行列作成部15F2と、関連性抽出部15F3とから構成することができる。「演算結果出力部」は、例えば表示データ作成部15F4と、ユーザインターフェース部15F5とから構成することができる。
図2は、図1で述べた各機能の実現に使用するハードウェア構成の一例を示す。GW装置13、データ管理計算機14、解析用計算機15は、それぞれ例えば図2に示すコンピュータシステムを有する。
CPU(Central Processing Unit)1H101は、ROM(Read Only Memory)1H102もしくは外部記憶装置1H104に格納された所定のコンピュータプログラムをRAM(Read Access Memory)1H103に読み込んで実行する。
これにより、上述の収集部13F1、ハッシュ生成部13F2、転送部13F3、ハッシング方法データ管理部14F1、収集データ管理部14F2、ハッシュ関数生成部14F3、合成ハッシュ距離定義部15F1、類似度行列作成部15F2、関連性抽出部15F4、表示データ作成部15F4、ユーザインターフェース部15F5、解析データ管理部15F6がそれぞれ実現される。
CPU1H101は、通信インターフェース1H105を介して通信ネットワークに接続し、データ通信することができる。外部入力装置1H106は、指示または情報をコンピュータシステムに入力するためのもので、例えば、マウス、キーボード、タッチパネル、音声指示装置などから構成される。外部出力装置1H107は、コンピュータシステムから情報を出力するためのもので、例えば、ディスプレイ、プリンタ、音声合成装置などから構成される。
図3〜図5を用いて、データ構造の例を説明する。図3は、ハッシング方法データ管理部14F1が管理するハッシング方法データの構成例である。ハッシング方法データは、監視システム11からのデータまたは設備12からのデータからハッシュを生成する方法を示すデータである。
ハッシング方法データは、例えば、データ項目ID 1D101と、観点名称1D102と、ハッシング方法1D103と、ハッシングパラメータ1D104と、類似度指標1D105とを備える。
データ項目ID 1D101は、データ種別を表す。観点名称1D102は、データ項目の内容を示す。ハッシング方法1D103は、例えばCosine尺度に対するLSH(Locality Sensitive Hashing)などのハッシュ生成手法を示す。ハッシングパラメータ1D104は、ハッシュ長(ビット数)などのハッシュ生成方法に関連するパラメータを示す。類似度指標1D105は、データ項目1D101についての類似度の定義を表す。
図4は、収集データ管理部14F2が管理する収集データの構成例を示す。収集データは、GW装置13から受信したデータおよびそのハッシュを対応づけている。収集データは、例えば、ソースID 1D201と、データ項目ID 1D202と、日時1D203と、元データ1D204と、特徴ベクトル1D205と、ハッシュ1D206とを備えている。
ソースID 1D201は、データソースを識別するIDを表す。データソースとは、監視システム11のプログラムブロック、設備12である。データ項目ID 1D202は、データ種別を表す。日時1D203は、データを収集した日付と時刻を表す。元データ1D204は、監視システム11や設備12から収集した未加工データを示す。特徴ベクトル1D205は、元データ1D204を要約した場合のデータを表す。ハッシュ1D206は、元データ1D204もしくは特徴ベクトル1D205から生成するハッシュ値である。
収集データの具体例を説明する。設備12からは、例えば、基本的設備情報と、保守情報と、計測制御情報と、イベント情報などを収集できる。基本的設備情報とは、例えば、設備名称、設備の種類および型式、設備の設置場所などの情報である。保守情報とは、例えば、設備の設置年度、保障期間、点検日時などの情報である。計測制御情報とは、例えば、設備に取り付けられた温度センサまたは振動センサなどの計測値、設備内のコントローラの動作ログなどである。イベント情報とは、例えば、設備の起動および終了等の通知、消耗品切れ、故障発生を知らせるアラームなどである。このように解析システム2は、制御システム1から、時系列データ、非時系列データ、連続データ、非連続データ(離散データ)のような種々のデータを収集可能となっている。
図5は、解析データ管理部15F6が管理する解析データの構成例を示す。解析データは、収集データに基づいてデータ間の関連性を解析した結果を表す。解析データは、例えば、類似度番号1D301と、試行番号1D302と、ユーザ類似度定義情報1D303と、近傍定義情報1D304と、クラスタリングパラメータ1D305と、類似度行列バイナリ1D306とを備える。
類似度番号1D301は、ユーザ類似度の定義番号を表す。試行番号1D302は、同一のユーザ類似度を用いて、解析をやり直した場合の番号である。ユーザは、例えば同一のユーザ類似度の定義において、近傍定義情報1D304を変更した場合の解析結果を得ることができる。
ユーザ類似度定義情報1D303は、ユーザ類似度の定義を表す。近傍定義情報1D304は、近似類似度行列を計算する場合の下限類似度を表す。下限類似度は「所定の閾値」に対応する。クラスタリングパラメータ1D305は、クラスタリングの方法およびクラスタ数を表す。クラスタリングは、後述のように、近似類似度行列に基づく関連性(関連度)の抽出において実施する。類似度行列バイナリ1D306は、近似された各要素の類似度行列のバイナリ表現である。
ここで、ユーザ類似度定義情報1D303は、ユーザが定義した関連(または遠近)の定義であって、データ項目に対する重み情報である。この重みは、0以上1未満に設定されており、かつ重みの総和は1である。例えば、図5に示すように、データ項目A01の重みが0.2、データ項目B02の重みが0.1、他が0といった値を取る。ユーザ類似度定義情報1D303は、例えば、アラーム発生時刻および設備名称に関する関連を考慮した類似度を表現することができる。
データ関連性解析システムの動作を説明する。まず図6と図7を用いて、データの関連性を解析する処理の全体の流れを説明する。
本処理に先立ち、各データ項目には、ハッシング方法データ管理部14F1の管理するハッシング方法データが設定されており、そのハッシング方法データは各GW装置13で共有されているものとする。ハッシング方法データは、上述の通り、ハッシュ生成の方法とパラメータとを含む。
図6を用いて、GW装置13によるハッシュデータ生成処理を説明する。まず、収集部13F1は、監視システム11および設備12から定期的にデータを収集し、RAM1H103または外部記憶装置1H104に記憶する(ステップ1S101)。以下、RAM1H103または外部記憶装置1H104を記憶領域と称する。なお、収集部13F1は、定期的にデータを収集するのではなく、任意のタイミングで、監視システム11および設備12からデータを収集することもできる。
ハッシュ生成部13F2は、収集したデータ(元データ1D204)のうちベクトル表現ではないデータから、特徴ベクトルを生成する(特徴ベクトル1D205)に変換する(ステップ1S102)。ベクトル表現ではないデータから特徴ベクトルを得ることを特徴ベクトル化と呼ぶ。
例えば、設備の名前や型式などの文字データは、その類似性を連続的に表現できるベクトル表現として、特徴ベクトル化する。画像データは、例えば色ヒストグラム、SIFT(Scale Invariant Feature
Transform)、SURF(Speed-Up
Robust Features)などの、特徴量を使って特徴ベクトル化する。温度や振動数などの時系列かつ連続的なデータは、AR(Autoregressive)モデル等の統計モデルのパラメータとして特徴ベクトル化する。アラームやログのような時系列かつ非連続なデータは、後述の方法で特徴ベクトル化する。なお、もともとハッシュを生成しやすいベクトル表現となっているのならば、特徴ベクトルを生成する処理(ステップ1S102)は実施しなくてもよい。
ハッシュ生成部13F2は、ステップ1S102で生成した特徴ベクトルから、類似度や距離を保存するハッシュを生成する(1S103)。ここでのハッシュとは、特定の手法に限定しない意味での、局所性鋭敏なハッシュを意味する。
ハッシュ生成部13F2は、ハッシュ生成に際して、データ項目ID(1D101)に応じたハッシング方法(1D103)を用いる。例えば、関連の定義としてL2ノルムを用い、LSH(Locality Sensitive Hashing)によってハッシュを生成する場合には、p安定分布(平均0、分散1となる正規乱数)を用いて生成する。なお、ハッシュ生成部13F2は、ハッシュ生成に際して、ハッシングパラメータ1D104の値を参照する。
転送部13F3は、収集データ(元データ)と、特徴ベクトルと、生成したハッシュとをまとめてデータ管理計算機14のハッシング方法データ管理部14F1に転送する(ステップ1S104)。なお、制御システム1から解析システム2へのデータ転送は、必ずしも逐次的に行う必要はなく、バッチ処理でもよい。例えば、制御システム1から解析システム2へ1日単位でデータを転送してもよい。
図7を用いて、解析システム2によるデータ間の関連性を解析する処理の全体概要を説明する。
ユーザインターフェース部15F5は、ユーザから、解析対象とする監視システム11や設備12、あるいは、それらのデータ項目といった、解析範囲提示情報を取得する(ステップ1S201)。
ユーザインターフェース部15F5は、ユーザから、解析範囲提示情報に該当する監視システム11や設備12、データ項目となる観点で定義される、ユーザ類似度定義情報を取得する(ステップ1S202)。ユーザがユーザ類似度を定義するためのGUI(Graphical User Interface)の例については後述する。
ユーザインターフェース部15F5は、ユーザから近傍定義情報を取得する(ステップ1S203)。本実施例において、近傍定義情報(図5の1D304)とは、近似類似度行列に含まれる各要素のうち0を除く要素(値)の下限を設定する情報である。すなわち、近傍定義情報は、比較対象のデータ同士が近似するかどうかを判別するための所定の閾値である。以降、近傍定義情報の値を「類似度下限」と呼ぶ場合もある。
合成ハッシュ距離定義部15F1は、ユーザ類似度定義情報で定義されるユーザ類似度関数から、合成ハッシュ距離関数を生成する(ステップ1S204)。例えば、合成ハッシュ距離定義部15F1は、ユーザ類似度関数を構成する各類似度Sに対応するハッシュのハミング距離をHdとするとき、類似度Sをα/(1+Hd)で代用することで、合成ハッシュ距離関数を生成する。
ここでαは正の定数であり、本実施例では予め各類似度の中からサンプリングした値に基づいて、もっともらしい値を設定する。なお、類似度Sの代用方法としてα/(1+Hd)を用いる場合を述べたが、これに限らず他の置換を用いてもよい。例えば、類似度Sを、1−Hd/(Hdの最大値)などで代用してもよい。
類似度行列作成部15F2は、ユーザ類似度関数と合成ハッシュ距離関数と収集データとを用いて、近似類似度行列を作成する(ステップ1S205)。ステップ1S205の処理について図11で後述する。
関連性抽出部15F3は、ステップ1S205で作成した近似類似度行列を使ってラプラシアン行列を生成し、さらにスペクトラルクラスタリングを実行することで、関連性(クラスタ)を解析する(ステップ1S206)。
ここで、クラスタリングには既存の様々なアルゴリズムを用いることができる。例えば、階層的クラスタリング、k−means、SMI(Squared-loss Mutual Information)クラスタリング等を用いることができる。
表示データ作成部15F4ならびにユーザインターフェース部15F5は、関連性の解析結果(クラスタ情報)と近似精度を外部出力装置1H107を介してユーザに表示する(ステップ1S207)。ユーザに提示する画面については、後述する。
図8を用いて、アラームやログなどの時系列かつ非連続なデータからハッシュを生成する処理の例を説明する。ユーザ(またはデータ収集項目を設定する管理者)は、収集対象とするアラームやログについての収集条件を事前に設定する。本処理では、収集条件が成立した時点から一定期間だけ過去のデータを収集する。
ハッシュ生成部13F2は、以下の処理(ステップ1S302〜ステップ1S305)を一定期間単位で、例えば一日単位で実行する(ステップ1S301)。
ハッシュ生成部13F2は、収集条件が成立したか判定する(ステップ1S302)。ハッシュ生成部13F2は、収集条件が成立したと判定すると(ステップ1S302:YES)、予め指定されたデータ(アラーム、ログ、センサデータ等)について、収集条件が成立した時点から一定期間だけ過去のデータを収集する(ステップ1S303)。
ハッシュ生成部13F2は、ステップ1S303で収集した時系列データから特徴ベクトルを生成した後(ステップ1S304)、ステップ1S301に戻る。定期的または不定期に発生するアラームやログのような時系列データから特徴ベクトルを生成する処理については、図9および図10で後述する。
ハッシュ生成部13F2は、収集条件が成立していないと判定すると(ステップ1S302:NO)、例えば数十ミリ秒程度の一定期間だけスリープした後で(ステップ1S305)、ステップ1S301に戻る。
一定期間が経過してループを脱した場合、ハッシュ生成部13F2は、ステップ1S304で生成した各特徴ベクトルをクラスタリングすることで、代表ベクトルを抽出する(ステップ1S306)。なお、クラスタリングには、k−means等の各種手法を用いることができる。ハッシュ生成部13F2は、ステップ1S307で抽出した各代表ベクトルについて、LSHを用いてハッシュを生成する(ステップ1S307)。
上記の手順で特徴ベクトルならびにハッシュを生成すると、ある一つのデータは、複数の特徴ベクトルおよび複数のハッシュを持つ。そこで、本実施例では、第1データに含まれる特徴ベクトル群(ハッシュ群)と第2データに含まれる特徴ベクトル群(ハッシュ群)とのペアの組み合わせに関して、最も大きい類似度をそのデータペアの類似度として使用する。最も大きい類似度とは、最も小さいハッシュ距離である。なお、最大の類似度(最小のハッシュ距離)を用いることに代えて、データペアの各類似度(ハッシュ距離)の平均値をそのデータペアの類似度(ハッシュ距離)として用いてもよい。
図9および図10を用いて、時系列データの特徴ベクトル化(ステップ1S304)の詳細を説明する。図9は時系列データから特徴ベクトルを生成する処理のフローチャートを示し、図10は図9に示す処理の概略を模式的に示す。
ここで、図10の1X101に示すように、ある時刻のデータe4で収集条件が成立したとする。図8のステップ1S303で説明したように、収集条件が成立した時点から一定期間だけ過去のデータ(1X102)が抽出される。
ハッシュ生成部13F2は、抽出した各データの時間間隔データを抽出する(ステップ1S401)。例えば、図10に示す各データe1,e2,e3,e4が、それぞれ時刻10:00,10:01,10:02,10:03に出力されたものとする。この場合、ハッシュ生成部13F2は、1X103に示すように、データe1とデータe2の間が1分、データe1とデータe3の間が2分、データe1とデータe4の間が3分、データe2とデータe3の間が1分、データe2とデータe4の間が2分といった具合で、各データ間の時間を算出する。
ハッシュ生成部13F2は、ステップ1S401で得た時間間隔データをヒストグラム化する(ステップ1S402)。例えば、それぞれ担当する時間範囲の異なる複数のビンを用意し、各ビンに配置する時間間隔データの数を整理する。例えば、ビン1は0〜1.5分、ビン2は1.5〜2.5分、ビン3は2.5〜3.5分、ビン4は3.5〜4.5分、ビン5は4.5分以上とすると、1X104に示すようなヒストグラムを作成することができる。
ハッシュ生成部13F2は、ステップ1S402で作成したヒストグラムを正規化する(ステップ1S403)。ヒストグラムの正規化とは、例えば、ノルム1のベクトルに変換することである。
なお、時間間隔データの総数は、収集したデータの数をn個とするとnC2(nコンビネーション2)となるので、ステップ1S402で作成したヒストグラムの各値をnC2で割ることで正規化することができる。
図11を用いて、図7のステップ1S205で示した近似類似度行列の作成処理を説明する。なお、本実施例では、類似の探索に三角不等式VP−Treeを用いた場合を示すが、LAESA(Linear Approximating and
Eliminating Search Algorithm)等の他の手法を用いてもよい。
類似度行列作成部15F2は、合成ハッシュ距離に基づくピボット情報を計算し、探索木(VP−Tree)を構築する(ステップ1S501)。ピボット情報とは、VP(ヴァンテージポイント)である。
類似度行列作成部15F2は、ユーザ類似度関数を合成ハッシュ距離関数に写像する関数を推定する(ステップ1S502)。例えば、数十点程度のデータペアのサンプルについて、ユーザ類似度関数の値と合成ハッシュ距離関数の値とをそれぞれ求め、ユーザ類似度関数の値と合成ハッシュ距離関数の値との関係を1次の線形回帰モデル(直線)として、その尤度を推定する。このユーザ類似度関数を合成ハッシュ距離関数に写像する関数を本実施例ではfとする。なお、写像関数の推定には、他の統計手法を用いてもよい。また、ここで計算したユーザ類似度関数は、類似度行列の要素に設定することができる。
類似度行列作成部15F2は、VP−Treeに対するクエリを決める(ステップ1S503)。類似度行列作成部15F2は、解析範囲に指定されているデータ集合に属しており、かつ、今までクエリとして選ばれていないデータを選択する。
類似度行列作成部15F2は、ステップ1S503で選んだクエリの近傍データ集合を探索する(ステップ1S504)。近傍データ集合を、近傍集合と呼ぶ場合がある。近傍集合とは、Hd(クエリ, X)<=f(類似度下限)という不等式を満足するデータXである。ここで、Hdは合成ハッシュ関数であり、同様にf(・)はユーザ類似度関数から合成ハッシュ距離関数への写像を推定した関数である。
VP−Treeを用いて探索する場合、ルートノードからリーフノードまで順に辿っていき、リーフノードに含まれるデータ点について前記不等式をチェックする。なお、合成ハッシュ距離関数は三角不等式を満たすように定義されているので、リーフノードにおける三角不等式による探索範囲の限定ができる。これは、LAESAなど他の三角不等式を用いて探索範囲を限定する他の探索法を用いる場合でも用いることができる。
類似度行列作成部15F2は、クエリと近傍集合に含まれる各点のデータとについて、ユーザ類似度をそれぞれ計算し、行列要素として類似度行列に設定する(ステップ1S505)。
類似度行列作成部15F2は、クエリと近傍集合に含まれていない各点のデータとについて、「所定値」としての0を設定する(ステップ1S506)。なお、先に類似度行列を0で初期化する場合、本ステップ1S506は省略できる。また、所定値は0に限らず、近似的に算出した距離以下の値を設定してもかまわない。
類似度行列作成部15F2は、未探査のクエリがあるか確認する(1S507)。すなわち類似度行列作成部15F2は、解析範囲に指定されたデータ集合に属していて、かつ今までクエリとして選ばれていないデータがないことを確認する。選ばれていないデータがあると判定すると(1S507:YES)、類似度行列作成部15F2はステップ1S503に戻る。そうでない場合は本処理を終了する。
なお、上記は、ユーザが設定したユーザ類似度に対応する合成ハッシュ距離の上限を上回るデータペアも計算対象とするが、合成ハッシュ距離を尤度関数と捉えて、サンプリング手法を用いることもできる。さらに、上記では、全ての類似度をハッシュ距離に置き換えたが、誤差の大きい類似度や計算量が小さい類似度については、そのまま真の類似度を用いてもよい。
図12を用いて、近似精度の算出処理を詳しく説明する。本処理は、例えば、関連性抽出部15F3が行うことができるが、ここでは解析システム2の解析用計算機15を動作主体として説明する。
解析用計算機15は、近似類似度行列の範囲に含まれるデータペアをランダムに1つサンプリングする(ステップ1S601)。解析用計算機15は、サンプリングしたデータペアが計算済みか確認する(ステップ1S602)。
近傍集合に属さないデータに0を設定する場合(図11のステップ1S506)、解析用計算機15は、サンプリングしたデータペアに対応する近似類似度行列の値が0でなければ、サンプリングしたデータペアは計算済みであると判断できる。サンプリングしたデータペアがすでに計算済みの場合(1S602:YES)、解析用計算機15はステップ1S604に移動し、そうでない場合(1S602:NO)はステップ1S603に移動する。
ステップ1S601でサンプリングしたデータペアを計算済みでない場合(ステップ1S602:NO)、解析用計算機15は、そのデータペアのユーザ類似度を計算する(ステップ1S603)。
サンプリングしたデータペアを計算済みである場合(ステップ1S602:YES)、もしくは、ステップ1S603の処理後、解析用計算機15は、その計算結果と近似類似度行列のうちの該当する要素との差を計算する(ステップ1S604)。
図11のステップ1S506で0を設定している場合、ステップ1S602での判定結果がYESなら差分は0となり、判定結果がNOならユーザ類似度の値となる。
解析用計算機15は、差の絶対値の累積値を計算する(ステップ1S605)。すなわち、解析用計算機15は、初期値を0として、ステップ1S604で算出した差の絶対値を累計する。
解析用計算機15は、近似類似度行列に対して、新たに計算したユーザ類似度(真の値)を設定する(ステップ1S606)。すでに真の値が設定されている場合には、ステップ1S606の処理は不要である。
解析用計算機15は、予め設定された指定回数(N回)だけ図12の処理を実行したかを確認する(ステップ1S607)。もし実行回数がN回に達していない場合(1S607:NO)、ステップ1S601に戻る。そうでない場合は本処理を終了する。本実施例ではN=100に設定するが、この値は例示であり、100に限定しない。
図13〜15を用いて、ユーザインターフェースの構成を説明する。図13は、ユーザが、ユーザ類似度を定義するためのユーザ類似度定義インターフェースの例である。
ユーザ類似度定義インターフェースは、解析用計算機15のユーザインターフェース部15F5に表示される。ユーザ類似度定義インターフェースは、例えば、観点リスト1G101と、観点選択ボタン1G102と、観点選択解除ボタン1G103と、選択観点リスト1G104と、類似度下限設定コンボボックス1G105と、クラスタリング設定ボタン1G106と、解析ボタン1G107を備える。
ユーザは、ユーザ類似度定義インターフェースの利用に先立って、解析対象の設備などを指定する。ユーザは、予め用意されている観点の中から、所望の観点を指定することができる。すなわち、観点リスト1G101は、ハッシング方法データ管理部14F1に登録された各データ項目に関する観点を表示する。ユーザは、関連(遠近)を解析したい観点を選んで、観点を選択するためのボタン1G102を操作する。これにより、ユーザの選択した観点は、選択した観点をリスト表示する選択観点リスト1G104に追加されて表示される。ユーザは、選択観点リスト1G104に表示した観点のうち解析対象から外したい観点がある場合、その外したい観点を選択し、選択を解除するための観点選択解除ボタン1G103を操作する。これにより、ユーザの選択した観点は、選択観点リスト1G104から除外される。
ユーザは、解析対象として選択した各観点について、それぞれの重みを指定する。すなわち、ユーザは、選択観点リスト1G104内のスライダ1G104aを操作することで、各観点ごとに重みを設定することができる。ユーザが解析対象の観点とその重みを決定することで、ユーザ類似度が定義される。
ユーザは、類似度下限設定コンボボックス1G105において、真の類似度を計算するかどうかを決めるための閾値である類似度下限を設定する。本実施例では、上述の通り、局所鋭敏性ハッシュを用いて近似的に求めた類似度が類似度下限以上の場合、真の類似度を計算する。
ユーザは、クラスタリングを設定するためのクラスタリング設定ボタン1G106を操作することで、クラスタリングの内容を設定することができる。例えば、ユーザがクラスタリング設定ボタン1G106を操作すると、図示せぬクラスタリング設定画面に移行するか、もしくは図示せぬクラスタリング設定画面がユーザ類似度定義インターフェースと共に表示される。ユーザは、クラスタリング設定画面において、例えば、クラスタリングアルゴリズムの選択、クラスタ数などの各種パラメータを設定する。
最後に、ユーザが解析ボタン1G107を操作すると、一連の関連性の解析処理が開始される。解析処理が終了したのち、解析用計算機15のユーザインターフェース部15F5は、図14で後述する解析結果の表示インターフェースと、図15で後述するユーザ類似度の履歴表示インターフェースとを表示する。
図14を用いて、解析結果の表示インターフェースを説明する。解析結果の表示インターフェースも、ユーザ類似度定義インターフェースと同様に、解析用計算機15のユーザインターフェース部15F5で表示される。
解析結果の表示インターフェースは、例えば、クラスタリング結果1G201と、類似度行列精度評価結果テキストボックス1G202と、類似度下限設定コンボボックス1G203と、再解析ボタン1G204と、類似度再定義ボタン1G205と、精度評価ボタン1G206とを備える。
ユーザは、クラスタリング結果1G201の表示を確認することで、データがどのようにクラスタリングされているかを確認できる。なお、クラスタリング結果は、表示データ作成部15F4によって、次の手順で表示される。
まず、各クラスタについて、自分と他の点との類似度の和が最も大きい点を選択し、これをクラスタの代表点とする。次に、各クラスタの代表点に対して多次元尺度構成法により、2次元空間での座標(クラスタ原点)を決める。さらに、各クラスタ内で同様に、多次元尺度構成法により座標を求め、前記クラスタ原点を基準に配置する。クラスタの各データ点の(クラスタリング結果1G201内の点線枠)が重なる場合、クラスタ内での座標の大きさを縮小(1/N倍等)することで重ならないように表示できる。
ユーザが精度評価ボタン1G206を押すと、図12で述べたように、データペアを所定数Nだけサンプリングする精度評価が実行される。これにより、近似類似度行列の評価結果は、類似度行列の精度を評価した結果を示すためのテキストボックス1G202に表示される。
さらに、ユーザは、類似度下限設定コンボボックス1G203の値を再設定し、再解析ボタン1G204を操作することで、類似度下限を変更して関連性を再計算させることができる。この場合、解析データとして、類似度番号は変更されずに試行番号だけがインクリメントされた結果が計算される。すなわち、ユーザ類似度定義を変えずに類似度下限だけを変更して、解析をやり直すことができる。
ユーザは、類似度を再定義するボタン1G205を操作することで、図13に示すユーザ類似度定義インターフェースに戻り、類似度を再定義することができる。
図15を用いて、ユーザ類似度の履歴表示インターフェースを説明する。ユーザ類似度の履歴表示インターフェースも、解析用計算機15のユーザインターフェース部15F5で表示される。ユーザ類似度の履歴表示インターフェースは、例えば、類似度関係モニタ1G301と、類似度定義確認リスト1G302を備える。
ユーザは、類似度関係モニタ1G301を確認することで、各類似度(各類似度番号1D301について、試行番号1D302の最も大きいもの)の関係を確認できる。
なお、類似度関係は、表示データ作成部15F4により、次の手順で表示される。各類似度(類似度番号1D301)のペアについて、近似類似度行列のフロベニウスノルムをそれぞれ計算する。そして、各ペアのフロベニウスノルムに基づいて、多次元尺度構成法により、2次元データを構成する。
ユーザが類似度関係モニタ1G301で表示された点を指定すると、措定した点に対応する類似度(類似度番号1D301)の定義1D303が類似度定義確認リスト1G302に表示される。ユーザは、これを利用して、全体の類似度がどう定義されているか、あるいは、次にどのように類似度を定義をすればよいかなどを検討できる。
なお、上記では、類似度空間上のデータや類似度行列の関係を画面に表示するにあたって、すなわち、1次元データを2次元(以上)に拡張するにあたって、多次元尺度構成法を用いた。しかし、多次元尺度構成法に限らず他の方法、例えば、ばねモデルを使った方法などを用いてもかまわない。また、近似類似度行列の差としてフロベニウスノルムを使ったが、他の尺度を用いても構わない。
このように構成される本実施例によれば、ユーザは、予め用意された複数の観点の中から所定の観点を選択し、選択した所定の観点に基づいて元データ間の関連性を解析させることができる。ユーザは、選択する観点を変更したり、類似度下限を変更したりすることで、種々の解析を行うことができる。
さらに、本実施例では、元データから局所鋭敏性ハッシュを算出し、ハッシュのハミング距離に基づいて、データ間の類似度を近似的に算出し、類似度が閾値としての類似度下限以上である場合に、真の類似度を演算する。
このように本実施例では、データの関連性を試行錯誤で調べる場合において、少ない計算量で速やかに解析することができる。従って、本実施例では、関連性の解析作業の効率を向上することができる。
また、本実施例では、ユーザ類似度定義を変えたり、類似度下限を変えたりして試行錯誤した解析結果の履歴を比較可能に表示する。従って、ユーザは、どのように定義すればどのようにクラスタリングされるのかなどを学習することができ、適切な解析作業に役立てることができる。
上述のように、本実施例によれば、ユーザが監視システム11や設備12のデータに対して柔軟に関連を定義でき、すなわち、ユーザ類似度を定義でき、かつ、高速にその関連性を抽出できる。この結果、本実施例によれば、ユーザが関連について知見を持っていない場合、あるいは未知の問題を解析する場合でも、関連性を効率的に解析できる。
本実施例では、ユーザ類似度に対応する合成ハッシュ距離が距離の公理を満たすように定義される。この結果、本実施例によれば、探索時(VP−TreeのノードリーフやLAESAの処理)に、三角不等式に基づいて探索範囲を削減できるため、解析に要する処理を高速化できる。
本実施例では、近似類似度行列を作成する際、類似度下限を下回る行列要素には0を割り当てるため、近似類似度行列は0を多く含む状態、すなわちスパース状態となる。この結果、本実施例によれば、スペクトラルクラスタリングやSMIクラスタリングなどの、行列の固有値や固有ベクトルを求めるタイプのクラスタリング処理を高速化できる。
本実施例では、ユーザ類似度に設定される類似度下限を下回るようなデータペアの関連性については、局所性鋭敏なハッシュによる計算を実行しないか、あるいは近似値に置き換えることができる。
この結果、解析対象データが多い場合、ユーザは、ある程度見当がつくまでは類似度下限を厳しく設定して高速に計算し、そして最終的には類似度下限を緩く設定して、解析精度を向上することができる。また、その際に、図14で示したように、サンプリングによって近似類似度行列の精度を評価できる。
本実施例では、図15で示したように、複数のユーザ類似度に基づく解析結果の関係を可視化して表示できるため、ユーザは次にどのような定義を試せばよいかなどを効果的に学習でき、何度も同じような定義をしないでよいので、試行錯誤を伴う解析作業を効率化できる。
ここで、真の類似度を算出する式と、ハッシュで近似距離を求める式を説明する。最初に以下に述べる各式の変数を説明する。_i はインデックスを表す添え字である。
x,y:任意の特徴ベクトル。ステップ1S102で生成される。ベクトルの次元は、データに依存する。
S(x,y):ユーザ類似度関数(真の類似度)。定義は後述。
S_i(x,y):データ項目ID(1D101)がiの類似度。詳細は1D105によって指定される。
Hd(x,y):合成ハッシュ距離(関数)。真の類似度の性質を近似する。定義は後述。
Hd_i(x,y):データ項目ID(1D101)がiの類似度(S_i(x,y))に対応するハッシュ距離(関数)。ハッシング方法(1D103)と、ハッシングパラメータ(1D104)により指定される。
W_i:データ項目ID(1D101)がiの類似度に対する重み。図13のユーザインターフェースでユーザに指定される0以上の値。データ管理上、ユーザ類似度定義情報(1D303)に対応。
真の類似度は、下記式1に示す用に、各類似度に重みをかけたものの和、すなわち、重みつき線形和として求めることができる。
S(x,y) = W_0 * S_0(x,y) + W_1 * S_1(x,y) +...
= Σ{W_i * S_i(x,y)}・・・・・(式1)
S_i(x,y) = α_i / (1+Hd_i)と置き換えることで、下記式2に示すように、合成ハッシュ距離関数を定義(生成)する。
Hd(x,y) = Σ{W_i * α_i / (1+Hd_i(x,y))}・・・・(式2)
図16および図17を用いて第2実施例を説明する。本実施例は、第1実施例の変形例に該当するため、第1実施例との相違を中心に説明する。
特定期間に電力需要が集中することをピーク需要と呼ぶ。ピーク需要の発生は、発電設備や送電設備の稼働率を低下させる。また、ピーク需要に対応するためにガスタービン発電設備の導入を強いられたりする。しかし、ガスタービン発電設備は、応答は早いが燃費が悪い。
そこで、電力需要を制御することでピーク需要を分散(シフト)させるという、需要応答(デマンドレスポンス、DR)と呼ばれる技術が近年注目されている。DRには、複数の方式がある。一つの方式では、事前の契約に基づいて、電気機器の電力消費を直接抑制する。他の一つの方式では、ピーク需要の発生が予測されると、その発生予測時刻での電力消費の抑制を消費者に依頼し、その依頼を受託した消費者だけが電力消費を自発的に抑制する。
後者の方式を採用する場合、各消費者が消費電力の低減依頼を受託するかどうか、どれだけの規模(消費電力量)で受託するか、といった特性を把握する必要がある。すなわち、同程度の電力消費規模で、かつ同程度の受託率を有する消費者をグループ化し、それらグループに応じたサービスを提供する。例えば、各グループの特性に応じて、電力需要の抑制に関する契約内容を設定したり、依頼を受託したときのインセンティブを設定したりする。インセンティブとしては、例えば、電力代金の割引、駐車や買い物などに利用できる電子的または物理的クーポンの発行などがある。このように事前に消費者をグループ化してサービス内容を適切に設計すれば、必要にして十分な範囲で確度の高いDRを実施することができる。
そこで、本実施例では、適切なサービス設計のために、消費者をグループ化する場合、すなわちクラスタリングする場合を例に挙げて説明する。以下に述べるように、本実施例によれば、未知の消費者であっても、電力消費の動向や受託率の傾向が似ているグループに分類することができる。
図16は、本実施例に係るデータ関連性解析システムの全体構成を示す。図16に示すようにデータ関連性解析システムは、例えば、各消費者が所有するビルシステム3と、ホームシステム4と、アグリゲータが所有する解析システム5とを備える。ビルシステム3とホームシステム4と解析システム5とは、インターネット等の通信ネットワークN1を介して接続される。アグリケータとは、DRを実行する事業者である。
ビルシステム3のうち本実施例に関わる部分の構成は、第1実施例の制御システムと同様なので説明を省略する。ホームシステム4は、一般家庭に設けられるもので、設備12と、GW装置13bとを備える。設備12とGW装置13bとは、ホームネットーワークN2bを介して接続される。
解析システム5は、GW装置13cと、データ管理計算機14と、解析用計算機15を備える。GW装置13とデータ管理計算機14と解析用計算機15とは、通信ネットワークN3を介して接続される。
GW装置13、データ管理計算機14、解析用計算機15は、第1実施例と同様であるため説明を省略する。ホームシステム4のGW装置13bは、第1実施例のGW装置13からハッシュ生成部13F2を除いた構成である。
図16に示す各機能とハードウェアとの関係は、第1実施例と同様であるため説明を省略する。解析システム5で管理するデータ構造は、第1実施例と基本的に同様であるが、相違を説明する。本実施例では、ビルシステム3やホームシステム4の各GW装置は、契約電力量、プラン、場所などの基本情報と、時間ごとの消費電力量の時系列データなどの消費情報と、依頼応答時間、依頼節電量、応答の受託率、依頼応答直後の消費電力量の時系列データなどのDR実績情報とを、収集する。
本実施例の動作は、第1実施例と基本的に同様である。第1実施例との相違を以下に説明する。
1つ目の違いは、ホームシステム4で収集されたデータからハッシュを生成する処理にある。GW装置13bはハッシュ生成部を持たないため、解析システム5のGW装置13cが代わりにハッシュを生成する。すなわち、本実施例では、ホームシステム4の処理負荷を軽減したりコストを低減したりするために、ホームシステム4にハッシュ生成部13F2を設けず、解析システム5にハッシュ生成を代行させる。なお、ビルシステム3のGW装置13は、その内部のハッシュ生成部13F2でハッシュを生成する。
2つ目の違いは、DR実績情報の欠損に対する処理の追加である。一般的に、各消費者へのDRの依頼は、電力需給が逼迫した場合になされるものであり、日常的に依頼するものではない。従って、一度もDRの依頼に応答したことがない消費者が無視できない規模で存在する。
そこで、解析システム5は、定期的に、応答実績のない消費者について、もしその消費者にDRを依頼した場合に得られるはずの応答特性を推定する。すなわち、解析システム5は、データ管理計算機14で管理されている収集データのうち、DR実績情報のある消費者の情報をもとに、DR実績情報のない消費者のDR応答特性を推定する。
この処理について図17を用いて説明する。解析システム5のハッシュ生成部13F2は、DR実績情報のある消費者について、例えばDR依頼に応答した時間、DR依頼時に実行した節電量、DR依頼に応答した直後における消費電力量の時系列データなどに基づいてクラスタリングを行い、複数のグループに分ける。そして、解析システム5は、各グループを識別するためのグループ番号を、消費者のDR応答特性を表すラベルとする(ステップ2S101)。このラベルをDR特性ラベルと呼ぶ。
なお、DR応答特性は、例えば同じグループ内の応答時間、節電量、応答の受託率、依頼応答直後の消費電力量の時系列データの平均や分散として、数値で表現でき、サービス設計などに活用できる。
解析システム5は、消費者の基本情報や消費情報から、各消費者の関連を示す関連ネットワークを生成する(ステップ2S102)。解析システム5は、例えば、消費者の位置(例えば、消費者の属する地区の緯度経度)、契約電力、平日の消費電力量の平均や分散、休日の消費電力量の平均値や分散から、ベクトルを作成できる。解析システム5は、それらのベクトルに基づいて、適切に重み付けされた類似度を取得し、その類似度を用いて消費者間の類似性を判定できる。
解析システム5は、関連ネットワーク上で隣接するノードは同じラベルを持つと仮定して、ラベル伝搬法を用いてDR情報のない消費者にDR特性ラベルを推定する(ステップ2S103)。種々のラベル伝搬法を用いることができる。例えば、関連ネットワークに関するラプラシアン行列をLとするとき、I+σLで得られる解をラベルに割り当てる方法を用いることができる。
ユーザが利用するユーザインターフェースは、第1実施例と同様であるため、説明を省略する。
なお、本発明は、上述した実施形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。
1:制御システム、2、5:解析システム、3:ビルシステム、4:ホームシステム、13,13b,13c:ゲートウェイ装置、14:データ管理計算機、15:解析用計算機、13F1:収集部、13F2:ハッシュ生成部、13F3:転送部

Claims (12)

  1. データ間の関連性を解析するデータ関連性解析システムであって、
    各元データに対し所定演算を適用することで、前記各元データ間の類似度を近似的に算出するために使用する近似値を生成する近似値生成部と、
    前記各元データに対応する前記各近似値に基づいて、前記各元データ間の関連性を演算する関連性演算部と、
    前記関連性演算部による演算結果を出力する演算結果出力部と、
    を備え、
    前記関連性演算部は、
    予め用意された複数の観点の中から選択した所定の観点ごとに前記各元データの前記近似値同士の距離を算出し、
    前記近似値同士の距離が所定の閾値以下である場合は、前記各近似値に対応する前記各元データに基づいて前記各元データ間の類似度を算出し、
    前記近似値同士の距離が前記所定の閾値を越える場合は、前記各近似値に対応する前記各元データ間の類似度を前記近似値同士の距離以下の所定値として算出し、
    前記算出した各類似度に基づいて前記各元データをクラスタリングすることで前記各元データ間の関連性を演算する、
    データ関連性解析システム。
  2. 前記所定演算は、前記元データ間の類似度を保存するハッシュ演算である、請求項1に記載のデータ関連性解析システム。
  3. 前記関連性演算部は、三角不等式の条件に基づいて探索範囲を限定し、前記探索範囲内において、前記各元データ間の関連性を演算する、
    請求項2に記載のデータ関連性解析システム。
  4. 前記所定の閾値は、ユーザにより指定される類似度に基づいて算出される、請求項3に記載のデータ関連性解析システム。
  5. 前記近似値生成部は、前記元データが所定の発生条件が成立するたびに生成される時系列データである場合、前記関連性演算部は、所定期間内に発生した全ての前記元データに基づいて特徴ベクトルを算出し、前記算出した特徴ベクトルをクラスタリングして代表ベクトルを算出し、前記代表ベクトルに対して前記所定演算を行うことで、前記近似値を生成する、請求項4に記載のデータ関連性解析システム。
  6. 前記近似値生成部は、前記各元データ間の発生時刻の時間差に基づいて前記特徴ベクトルを算出する、請求項5に記載のデータ関連性解析システム。
  7. 前記関連性演算部は、前記近似値を用いて算出した類似度の評価結果を出力する、請求項6に記載のデータ関連性解析システム。
  8. 前記関連性演算部は、前記各元データの中からサンプリングした所定の複数の元データ間について算出した類似度と、前記近似値を用いて算出した類似度との相違を評価して出力する、
    請求項7に記載のデータ関連性解析システム。
  9. 前記関連性演算部は、前記所定の観点または前記所定の閾値を変えて繰り返し前記各元データ間の関連性を演算することができ、
    前記演算結果出力部は、前記関連性演算部による前記各元データ間の関連性の演算結果の履歴を出力する、
    請求項7に記載のデータ関連性解析システム。
  10. 前記各元データのうち一方の元データは、電力需給調整の実績値を有する一方の需要家に関するデータであり、前記各元データのうち他方の元データは、前記電力需給調整の実績値を有していない他方の需要家に関するデータであり、
    前記関連性演算部は、前記各元データ間の関連性として、前記一方の需要家により形成される電力需給調整クラスタのうちいずれのクラスタに前記他方の需要家が属するかを演算する、
    請求項1に記載のデータ関連性解析システム。
  11. 前記近似値生成部は、データを計測する計測装置側に配置されており、
    前記関連性演算部および前記演算結果出力部は、前記計測装置と通信可能に設けられる計算機側に設けられる、
    請求項1に記載のデータ関連性解析システム。
  12. データ間の関連性を解析するための計算機に通信可能に接続されるデータ管理装置であって、
    各元データを収集する収集部と、
    前記各元データに対し所定演算を適用することで、前記各元データ間の類似度を近似的に算出するために使用する近似値を生成する近似値生成部と、
    前記各元データと該各元データから生成した前記各近似値とを対応づけて前記計算機に転送する転送部とを備え、
    前記各元データおよび前記各近似値を受領した前記計算機は、
    予め用意された複数の観点の中から選択した所定の観点ごとに前記各元データの前記近似値同士の距離を算出し、
    前記近似値同士の距離が所定の閾値以下である場合は、前記各近似値に対応する前記各元データに基づいて前記各元データ間の類似度を算出し、
    前記近似値同士の距離が前記所定の閾値を越える場合は、前記各近似値に対応する前記各元データ間の類似度を前記近似値同士の距離以下の所定値として算出し、
    前記算出した各類似度に基づいて前記各元データをクラスタリングすることで前記各元データ間の関連性を演算する、
    データ管理装置。
JP2013252249A 2013-12-05 2013-12-05 データ関連性解析システムおよびデータ管理装置 Active JP6210867B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013252249A JP6210867B2 (ja) 2013-12-05 2013-12-05 データ関連性解析システムおよびデータ管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013252249A JP6210867B2 (ja) 2013-12-05 2013-12-05 データ関連性解析システムおよびデータ管理装置

Publications (2)

Publication Number Publication Date
JP2015109028A JP2015109028A (ja) 2015-06-11
JP6210867B2 true JP6210867B2 (ja) 2017-10-11

Family

ID=53439312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013252249A Active JP6210867B2 (ja) 2013-12-05 2013-12-05 データ関連性解析システムおよびデータ管理装置

Country Status (1)

Country Link
JP (1) JP6210867B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017002190A1 (ja) * 2015-06-30 2017-01-05 株式会社日立製作所 データの管理装置及びデータの管理方法
WO2017037801A1 (ja) * 2015-08-28 2017-03-09 株式会社日立製作所 監視システムおよび監視方法
JP6904450B2 (ja) * 2016-02-19 2021-07-14 住友電気工業株式会社 電力消費管理装置および電力消費管理プログラム
JP6761759B2 (ja) * 2017-01-09 2020-09-30 東邦瓦斯株式会社 電力抑制量制御システムおよびその方法
JP7352523B2 (ja) 2020-07-28 2023-09-28 Kddi株式会社 情報処理装置及び情報処理方法
CN112365338B (zh) * 2020-11-11 2024-03-22 天翼安全科技有限公司 基于人工智能的数据欺诈检测方法、装置、终端及介质
CN116091000B (zh) * 2023-02-14 2023-12-08 宁波紫熙物联科技有限公司 一种基于oa系统的资源智能化管理系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4314123B2 (ja) * 2004-01-30 2009-08-12 株式会社山武 アラーム解析装置、アラーム解析方法及びアラーム解析プログラム
US7797265B2 (en) * 2007-02-26 2010-09-14 Siemens Corporation Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
JP5813317B2 (ja) * 2010-12-28 2015-11-17 株式会社東芝 プロセス状態監視装置
JP5598925B2 (ja) * 2011-06-29 2014-10-01 Kddi株式会社 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム

Also Published As

Publication number Publication date
JP2015109028A (ja) 2015-06-11

Similar Documents

Publication Publication Date Title
JP6210867B2 (ja) データ関連性解析システムおよびデータ管理装置
Jin et al. Virtual occupancy sensing: Using smart meters to indicate your presence
Himeur et al. Smart power consumption abnormality detection in buildings using micromoments and improved K‐nearest neighbors
Zhou et al. Partial knowledge data-driven event detection for power distribution networks
Zhou et al. Nonparametric event detection in multiple time series for power distribution networks
Liu et al. Uncertain one-class learning and concept summarization learning on uncertain data streams
Zhang et al. Energy theft detection in an edge data center using threshold-based abnormality detector
Ringsquandl et al. Semantic-guided feature selection for industrial automation systems
WO2019108470A1 (en) Apparatuses, systems and methods of secure cloud-based monitoring of industrial plants
Kang et al. A service scenario generation scheme based on association rule mining for elderly surveillance system in a smart home environment
JP2015011565A (ja) 監視制御システム
CN117235524A (zh) 自动估值模型的学习训练平台
Mohamed et al. A review on big data management and decision-making in smart grid
Nguyen et al. Semi-supervised intrusive appliance load monitoring in smart energy monitoring system
CN116881744A (zh) 一种基于物联网的运维数据分发方法、装置、设备及介质
Zafar et al. Step towards secure and reliable smart grids in Industry 5.0: A federated learning assisted hybrid deep learning model for electricity theft detection using smart meters
Fan et al. Research and applications of data mining techniques for improving building operational performance
CN117388893A (zh) 一种基于gps的多设备定位系统
Frikha et al. Toward a user interest ontology to improve social network-based recommender system
Nikitin et al. Human-in-the-loop large-scale predictive maintenance of workstations
JP2015032173A (ja) 行動推定システム
Yeh et al. Estimation of a data-collection maturity model to detect manufacturing change
Balcı et al. Soft vibrational force on stock market networks
Gokulapriya et al. RETRACTED ARTICLE: Normal discriminant deep convolution neural classification based web behavioral pattern mining for user identification
Sheeba et al. WFCM based big sensor data error detection and correction in wireless sensor network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170912

R150 Certificate of patent or registration of utility model

Ref document number: 6210867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150