JP6207405B2 - データ処理装置 - Google Patents

データ処理装置 Download PDF

Info

Publication number
JP6207405B2
JP6207405B2 JP2014003448A JP2014003448A JP6207405B2 JP 6207405 B2 JP6207405 B2 JP 6207405B2 JP 2014003448 A JP2014003448 A JP 2014003448A JP 2014003448 A JP2014003448 A JP 2014003448A JP 6207405 B2 JP6207405 B2 JP 6207405B2
Authority
JP
Japan
Prior art keywords
similarity
signals
signal
unit
similarity calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014003448A
Other languages
English (en)
Other versions
JP2015132939A (ja
Inventor
飛仙 平田
飛仙 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2014003448A priority Critical patent/JP6207405B2/ja
Publication of JP2015132939A publication Critical patent/JP2015132939A/ja
Application granted granted Critical
Publication of JP6207405B2 publication Critical patent/JP6207405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、信号間の類似度を算出する技術に関する。
複数の信号の関係を分析する際に、信号間の類似度合いに基づいて、信号を分類(クラスタリング)したいという要求がある。
例えば、工場等において各種センサから計測されたデータをもとに、類似の挙動を示す機器を分類する、あるいは、電力会社において需要家ごとに設置された電力計によって計測されたデータをもとに、類似の電力消費パターンを有する需要家を分類するといった応用がある。
とくに、近年では大量に蓄積された多数の信号に対するクラスタリングの需要が高まっている。
クラスタリングに関する従来技術として、信号間の類似度合いを定義した行列である、類似度行列(similarity matrix)を陽に用いる手法と用いない手法がある。
類似度行列を陽に用いる手法としては、例えば階層的クラスタリング手法(hierarchical clustering)やスペクトラルクラスタリング手法(spectral clustering)などがある。
類似度行列を陽に用いない手法としては、例えばk−means法や統計的な分布推定手法によるものなどがある。
また、類似度行列において用いられる類似度としては、例えばEuclid距離や相関係数、相互情報量などがある。
本明細書では、類似度行列を陽に用いるクラスタリング手法における計算効率を高める方法を開示する。
特に、多数の信号を分析対象とした際に必要となる大規模な類似度行列を、高速に算出可能とする方法を開示する。
従来のクラスタリング手法に関する技術としては、例えば特許文献1及び特許文献2に記載の技術がある。
特許文献1では、階層的クラスタリング手法によるクラスタリングにおいて、類似度行列を高速に並べ替える方法が開示されている。
特許文献2では、k−means法によるクラスタリングにおいて、類似度を高速に算出する方法が開示されている。
特開2009−146215号公報 特開2008−134750号公報
本発明の主な目的は、多数の信号を分析対象とした際に必要となる大規模な類似度行列を、高速に算出可能とする構成を提供することである。
従来技術においては、クラスタリングを行う場合において、類似度行列は所与のものとして計算済みであることを前提としているという課題がある。
このため、従来技術においては、類似度行列が大規模となった場合に、類似度行列算出に要する時間が大きくなり、クラスタリング全体としての処理時間が増大するという課題がある。
また、1つの信号の組に対する類似度算出処理を高速化する手法が提案されているが、類似度行列の算出に必要な信号の組み合わせ数は信号数の2乗に比例するため、類似度行列が大規模となった場合に、類似度算出処理の回数が大きくなり、類似度算出処理全体として処理時間が増大するという課題がある。
さらに、クラスタリングおよび類似度算出処理を高速化する手法として、類似度の低い信号の組に対する類似度算出処理を途中で打ち切り0と見做すことで類似度算出処理を高速化するとともに、類似度行列の要素における0の割合を高めることで類似度行列を疎行列としてクラスタリングを高速化するといった手法が考えられるが、適切な打ち切り基準を設定するためには予め類似度行列の全体を把握しておく必要があるという課題がある。
特許文献1は、階層的クラスタリングを高速化する例である。
特許文献1においては、類似度行列を所与のものとして、類似度行列の並べ替えを高速化する手法が開示されている。
この手法において、類似度行列の算出が高速化されないことは言うまでもない。
また、並べ替えの目的は類似度が高い信号の組を発見することであるので、類似度行列が大規模となった場合においては、類似度が高い信号の組の類似度のみを保持して並べ替えの対象とすることで、並べ替えの高速化が可能と考えられるが、このような方法については開示も示唆もされていない。
特許文献2は、類似度算出処理を高速化する例である。
特許文献2においては、類似度としてヒストグラムの距離を採用した場合において、ヒストグラムを周波数領域で圧縮することにより類似度算出処理を高速化する方法が開示されている。
この手法においては、1つの信号の組に対する類似度算出処理は高速化されるが、類似度行列の全体を計算するために必要な計算回数は変わらないという課題がある。
一方で、大規模な類似度行列においては、多くの信号の組において類似度は低いと想定されるため、不要な計算を打ち切り、計算回数を削減することで高速化が可能と考えられるが、このような方法については開示も示唆もされていない。
また、計算機のメモリは有限であるので、ヒストグラムの様なデータ量の小さな信号であっても、類似度算出対象となる信号数が大規模となった場合には、全ての信号のデータを高速なメモリ上に保存しておくことは不可能となるので、データ読み出しのためのディスクアクセスによる処理速度低下などが発生すると考えられるが、このような課題を解決する方法については開示も示唆もされていない。
このように、多数の信号に対してクラスタリングを行う際には、類似度行列の算出を高速化することが必要となるが、従来技術においては、本発明が解決しようとする上記の課題については開示も示唆もされていない。
本発明は、前述したように、多数の信号を分析対象とした際に必要となる大規模な類似度行列を、高速に算出可能とする構成を提供することを主な目的とする。
本発明に係るデータ処理装置は、
複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部とを有することを特徴とする。
本発明によれば、信号の特徴量に基づき、類似度の算出対象を、類似度が高いと予想される信号の組に限定することができ、効果的に類似度行列の算出を高速化することができる。
実施の形態1に係るシステム構成例を示す図。 実施の形態1に係る類似度行列算出装置の動作例を示すフローチャート図。 実施の形態1に係る類似度算出対象判定処理を示すフローチャート図。 実施の形態1に係る区分的類似度算出処理を示すフローチャート図。 実施の形態1に係る特徴量記録イメージを示す図。 実施の形態1に係る混合正規分布推定による類似度算出対象判定イメージを示す図。 実施の形態1に係る累積分布関数による類似度算出閾値決定イメージを示す図。 実施の形態1に係る類似度算出処理の終了判定イメージを示す図。 実施の形態1に係る指数関数による距離から類似度への変換式を示す図。 実施の形態1に係る類似度行列算出装置のハードウェア構成例を示す図。
実施の形態1.
図1は、実施の形態1に係る類似度行列算出装置002を含むシステム構成例を表す図である。
図1において、類似度行列算出装置002は、データ蓄積装置001に蓄積されたデータを入力として、これを処理して類似度行列を算出し、クラスタリング装置003に提供する。
類似度行列算出装置002は、データ処理装置の例に相当する。
データ蓄積装置001は、データ収集部100とデータ蓄積部110を備える。
データ収集部100は、任意のデータを収集する手段であって、例えば温度、圧力、電圧、電流などの物理量だけでなく、これらを変換して生成される振幅やスペクトル強度、異常発生回数などの各種指標、または、位置情報や販売情報、経済指標などを収集してもよい。
データ収集部100で収集されたデータは、複数の信号から構成される。
また、各信号は、複数の信号値で構成される。
各信号では、複数の信号値が例えば時系列に配列されている。
データ蓄積部110は、データ収集部100によって収集されたデータを蓄積する。
データ蓄積部110は、類似度行列算出装置002からのデータ提供の要求に従ってデータの提供を行うものであり、DBMS(DataBase Management System)などを備えることが望ましい。
クラスタリング装置003は、クラスタリング部300を備える。
クラスタリング部300は、類似度行列算出装置002によって算出された類似度行列を用いてクラスタリングを行う。
例えば、前記の階層的クラスタリング手法やスペクトラルクラスタリング手法などにより、クラスタリングを行う。
類似度行列算出装置002は、特徴量導出部200、特徴量記録部210、類似度算出対象指定部220、類似度算出順序決定部230、閾値決定部240、類似度算出部250を備える。
特徴量導出部200は、データ蓄積部110に蓄積されたデータを用いて、信号ごとに特徴量を導出する。
特徴量は、信号の特徴を表す任意の指標である。
特徴量は、例えば信号の特徴である、平均値、分散などの統計量や、積算値、スペクトル強度などでだけでなく、信号源の特徴である、設備の種別や使用年数、設置箇所などを用いてもよい。
なお、以下では、特徴量をデータ特徴ともいう。
特徴量記録部210は、特徴量導出部200で導出された特徴量を記録する。
図5に特徴量の記録例を示す。
特徴量記録部210は、少なくとも、信号を特定するための信号ID(Identifier)と、1つの特徴量を記録する。
特徴量は、特徴量導出部200で導出された特徴量であって、数値またはラベルを表す文字列である。
また、特徴量はそれぞれ降順または昇順に整列して記録する。
なお、特徴量は、必ずしも全てを記録する必要は無く、該当する特徴量が存在しない場合や、特徴量導出部200において特徴量が導出できなかった場合などにおいては、特徴量の欠損を示す記号を記録する。
この際、当該特徴量が欠損した信号を、類似度算出対象指定部220において、類似度算出対象とするか類似度算出対象外とするか判定できるように、欠損理由により異なる記号を付すことが好ましい。
類似度算出対象指定部220は、特徴量記録部210に記録された特徴に基づいて、類似度算出対象となる信号の組の一覧を算出する。
類似度算出対象指定部220においては、算出しようとする類似度に対応してあらかじめ定められた規則に従って、類似度算出対象の判定に用いる特徴量を選択し、各特徴量における類似度算出対象判定結果を算出した後、これらの結果を演算により組み合わせることで、類似度算出対象となる信号の組の一覧を算出する。
類似度算出対象指定部220は、各信号の特徴量に基づいて、類似度が高いと予想される信号の組を、類似度の算出対象に指定する。
類似度算出対象指定部220においては、類似度判定を、整列された1次元空間の特徴量に限定して行うことで、連続した至近のデータとの比較のみによって類似度の判定が可能となる。
これにより、2次元以上の空間における特徴量を用いた場合に生じる信号数の組み合わせによる計算時間の増大を抑制し、高速な類似度判定を可能とする効果を得る。
類似度算出順序決定部230は、類似度算出対象指定部220により指定された類似度算出対象となる信号の組における信号ごとの出現頻度に基づき、類似度算出順序を決定する。
類似度算出順序は、最も多く類似度算出対象となっている信号から優先的に類似度が算出されるように構成する。
このように類似度算出順序決定部230を構成することにより、類似度行列を算出する際に、上位の信号から順にまとめて並列処理することで、ディスク装置から読みだされた信号がメモリ上にキャッシュされる時間を最大化し、ディスクアクセス回数を低減することにより類似度行列の算出を高速化する効果を得る。
閾値決定部240は、類似度行列を一定密度の疎行列とするために、類似度算出部250で用いる閾値(類度度算出閾値という)を算出する。
類度度算出閾値の算出は、いくつかの信号の組において算出された類似度から全体の類似度の分布を推定することで行う。
類似度算出対象とする信号の抽出は、類似度算出対象指定部220において算出された類似度算出対象となる信号を対象とした無作為抽出、または、類似度算出順序決定部230において優先度が高いと判定された信号の組からの抽出によって行う。
このように閾値決定部240を構成することにより、類似度の分布を推定する際に、明らかに類似度が低いと想定される信号の組については類似度の計算をせずに、類似度が高いと想定される信号の組から抽出した信号の組に対してのみ類似度を計算するため、少ない計算回数で類似度の分布が推定可能となる効果を得る。
類似度算出部250は、類似度算出順序決定部230によって定められた類似度算出順序に従って信号間の類似度を算出する。
より具体的には、類似度算出部250は、類似度算出対象の信号を区分的に処理して区分ごとに類似度を算出する。
また、類似度算出部250は、類似度のレベルが、類似度の算出を打ち切る条件である打切り条件に合致するか否かを判断し、類似度のレベルが前記打切り条件に合致する場合に、当該信号の組に対する類似度の算出を打ち切る。
例えば、類似度算出部250は、類似度のレベルが閾値決定部240によって定められた閾値を明らかに下回ることを打切り条件とする。
つまり、類似度のレベルが閾値決定部240によって定められた閾値を明らかに下回る信号の組については、類似度算出処理を打ち切り、類似度0と見做す。
また、例えば、類似度算出部250は、類似度のレベルが継続して一定のレベルにあること(収束したこと)を打切り条件とする。
つまり、類度のレベルが一定レベルにとどまり、類似度が収束したと判定できる場合も同様に処理を打ち切り、収束した値を類似度と見做す。
このように類似度算出部250を構成することにより、時系列データなどの類似度算出対象となる信号が長い場合において、全てのデータを参照することなしに類似度算出を打ち切ることができるため、類似度算出を高速化する効果を得る。
図2は、実施の形態1に係る類似度行列算出装置002の動作の概要を表すフローチャートである。
ステップS010は、特徴量を導出する処理である。
ステップS010において、特徴量導出部200は、データ蓄積部110に蓄積されたデータを用いて、信号ごとに特徴量を導出する。
また、導出された特徴量は、信号IDと関連付けてそれぞれ降順または昇順に整列した状態で特徴量記録部210に記録する。
ステップS020は、ステップS010において導出された特徴量を用いて、類似度算出対象となる信号の組を判定する処理である。
図3は、この処理における動作の詳細を示した図である。
ステップS200において、類似度算出対象指定部220は、あらかじめ定められた規則に従って、特徴量記録部210から1つの特徴量を抽出する。
ステップS210において、類似度算出対象指定部220は、ステップS200において抽出された特徴量を用いて類似度算出対象判定処理を行い、類似度算出対象となる信号の組の候補を抽出する。
類似度算出対象判定処理は、近傍N点を用いる手法、または、半径N内にある点を用いる手法が簡易である。
また、より厳密には、カーネル密度推定により変曲点を抽出する手法や、混合正規分布推定により近傍Nσを用いる手法などを用いることが望ましい(図6)。
また、類似度算出対象を制限する目的から、類似度算出対象とする信号の数に上限を設けてもよい。
また、類似度算出対象が過剰に抑制されることを避けるために類似度算出対象とする信号の数に下限を設けてもよい。
ステップS220において、類似度算出対象指定部220は、ステップS210において特徴量ごとに算出された類似度算出対象の候補の信号の組に対して、あらかじめ定められた規則に従って演算し、類似度算出対象となる信号の組の一覧を算出する。
例えば、特徴量1、特徴量2、特徴量3の3つの特徴量における類似度判定結果を元に、「特徴量1かつ特徴量2において類似度算出対象の候補として選定された信号の組、または、特徴量3において類似度算出対象の候補として選定された信号の組」を、最終的な類似度算出対象となる信号の組に決定して出力する。
あるいは、「2つ以上の特徴量において類似度算出対象の候補として選定された信号の組」を、最終的な類似度算出対象となる信号の組に決定して出力する。
なお、類似度算出対象となる信号の組の決定方法は、これらに限られない。
図2に戻り、ステップS030は、ステップS020において算出された類似度算出対象となる信号の組の一覧を用いて、類似度算出順序を決定する処理である。
ステップS030において、類似度算出順序決定部230は、ステップS020において算出された類似度算出対象となる信号の組の一覧から、信号ごとに出現回数を計数し、出現回数が最も多い信号Aを優先度1として記録する。
つぎに、信号Aとともに類似度算出対象となっている信号のうち、出現回数が最も多い信号の上位N−1個を上から順に優先度2からNとして記録する。
同様にして、類似度算出対象となる信号の組の一覧から、優先度1からNまでの信号を除いた残りの信号のうち、出現回数が最も多い信号Bを優先度N+1として記録し、信号Bとともに類似度算出対象となっている信号のうち、出現回数が最も多い信号の上位N−1個を上から順に優先度N+2から2Nとして記録する。
以下同様にして、類似度算出対象となっている信号の組がなくなるまで、優先度を算出して記録する。
この処理は、類似度行列の算出がクラスタリングを行うことを目的としていることに鑑みてなされるものである。
すなわち、類似度行列がクラスタを構成すると仮定すれば、信号Aと類似度が高い信号同士もまた類似度が高いと期待される。
従って、このように優先度を構成することで、類似度算出対象となる信号の組が簡易的にクラスタリングされるため、並列度Nによって優先度の高い順に類似度算出処理を行った際に、信号データの再利用性が高まり、ディスクアクセス回数を低減する効果を得る。
また、前述の類似度算出順序の決定方法は、後述の区分的類似度算出処理(S050)を並列処理にて実施する場合に有用な順序を決定する方法である。
区分的類似度算出処理(S050)を並列処理にて実施しない場合は、例えば、以下の方法により算出順序を決定してもよい。
(1)信号の組の一覧から、信号ごとに出現回数を計数し、出現回数が最も多い信号を優先度1として記録する。
(2)優先度1の信号と組になっている信号の出現回数を1つ減らした後、優先度1の信号を除いた信号の中で出現回数が最も多い信号を優先度2として記録する。
(3)優先度2の信号と組になっている信号の出現回数を1つ減らした後、優先度1、2の信号を除いた信号の中で出現回数が最も多い信号を優先度3として記録する。
(4)以降、同様にして、優先度(n−1)と組になっている信号の出現回数を1つ減らした後、優先度1〜(n−1)の信号を除いた信号の中で出現回数が最も多い信号を優先度nとして記録する。
ステップS040は、ステップS020において算出された類似度算出対象となる信号の組の一覧を用いて、ステップS050で用いる類似度算出閾値を算出する処理である。
ステップS040において、閾値決定部240は、ステップS020において算出された類似度算出対象となる信号の組の一覧から、無作為にJ組(J≧1)を抽出し、類似度を算出する。
算出した類似度から、カーネル密度推定手法などにより類似度の累積分布関数を推定し、あらかじめ定めた疎行列化後の非零要素数の割合を指定する疎行列化密度パラメータと累積分布関数の交点から類似度算出閾値を決定する。
図7は、ステップS040の処理を模式的に示したものである。
図7のグラフは、類似度の累積分布関数の推定結果を模したものである。
グラフのうち実線で表わされたプロットが、類似度算出対象となる信号の組から無作為抽出により推定された累積分布関数を表しており、これに続く破線で表わされたプロットは、類似度算出対象外となる要素数の割合から推定された類似度が小さい領域における累積分布関数を表している。
このような累積分布関数を用いることで、例えば類似度行列の非零要素の割合を10%としたい場合には、累積分布が0.9以下となる類似度を0とすればよく、従って累積分布関数において疎行列化密度パラメータp=0.9とし、累積分布がpとなる類似度qを類似度算出閾値として採用することで、q以下の類似度を0とした際の類似度行列の非零要素の割合をおよそ10%とすることができる。
なお、類似度算出閾値を導入した意図から明らかであるが、類似度算出閾値は、類似度算出対象となる信号の組から推定された累積分布関数上(図7実線部)に位置する。
このため、この領域に限定して信号の組を抽出することで、全ての信号の組から抽出を行った場合と比べて、より少ないサンプル数でより精度の良い類似度算出閾値を決定可能とする効果を得る。
さらに処理速度を高めるために、無作為抽出の代りに、ステップS030において算出した類似度算出順序を用いてもよい。
すなわち、類似度算出順序において優先度が高い信号の上位M(M≧1)個の信号を選択し、選択したM個の信号について類似度算出対象となっている信号の組の類似度を算出し、これを持って前記の無作為抽出に代える。
これにより、類似度算出対象の信号が大きい場合における、キャッシュ効率を向上し、ディスクアクセス回数を低減することにより類似度算出処理を高速化する効果を得る。
また、類似度算出処理には、類似度算出部250を閾値無しで用いることで、さらに類似度算出処理を高速化する効果を得る。
ステップS050は、ステップS020において算出された類似度算出対象となる信号の組に対して、ステップS030において算出された類似度算出順序に従って、ステップS040において算出された類似度算出閾値による打ち切りを伴う類似度算出処理により、類似度行列を算出する処理である。
図4は、この処理における動作の詳細を示した図である。
ステップS500において、類似度算出部250は、ステップS030において算出された類似度算出順序に従って、データ蓄積部110から優先度が最も高い信号Aを抽出し、信号Aを任意数の信号値ごとにK個の区間(部分集合)に区分する。
並列処理を行う場合は、優先度が最も高い信号上位N個を抽出し、同じくK個の区間に区分する。
ここで、区間とは信号から抽出されたサンプル(信号値)の集合を意味しており、必ずしも連続的または排他的な区間に限らない。
例えば、信号値が時系列に配列されている信号の場合、時刻0から100までの信号値を区間1として、時刻50から150までの信号値を区間2とするような重複を持つ区間であってもよい。
また、同じく時系列データにおいて、毎時刻の0分における信号値を区間1として、毎時刻の10分における信号値を区間2とするような不連続な区間であってもよい。
ステップS510において、類似度算出部250は、ステップS030において算出された類似度算出順序に従って、データ蓄積部110から優先度が最も高い順番に信号Bを抽出し、信号Aと同様にK個の区間に区分する。
信号Bを抽出する際には、ステップS020において算出された類似度算出対象となる信号の組を参照し、信号Aに対して類似度算出対象とならない信号については処理を行わずに、次に優先度が高い信号に対して処理を継続する。
また、並列処理を行う場合は、ステップS500において抽出したN個の信号のいずれかに対して類似度算出対象となっている信号について、処理を行う。
ただし、ステップS520以降の類似度算出処理は、類似度算出対象となっている信号の組に対してのみ行うことが好ましい。
ステップS520において、類似度算出部250は、前記信号Aと信号BのK区間から、対応する1区間を無作為に抽出し、この区間に対して類似度を算出する。
なお、2回目以降にこの処理を行う場合には、既に類似度を算出済みの区間は無作為抽出の対象から除く。
また、類似度は、差分処理により、抽出済みの全区間に対して算出することが好ましいが、各区間における類似度の平均値や期待値などの統計量で代用してもよい。
ステップS520、および、以降の判定処理を繰り返して、全ての区間について類似度の算出が完了した場合には、類似度算出部250は、類似度算出処理を終了し、閾値判定処理を行う。
また、全ての区間について類似度の算出が完了していない場合であっても、ステップS520において算出された類似度が収束したと判断された場合は、類似度算出部250は、類似度算出処理を終了し、閾値判定処理を行う。
さらに、いずれの類似度算出処理の終了条件を満たしていない場合であっても、ステップS520において算出された類似度が、ステップS040において算出された類似度算出閾値を明らかに下回ると判断された場合は、類似度算出部250は、類似度算出処理を終了する。
収束の判定は、例えばステップS520において算出された類似度と前回のステップS520において算出された類似度との差が一定以下である場合を収束と判定する、あるいは、ステップS520において算出された過去L回の類似度の分散が一定以下である場合を収束と判定するなどの方法による(図8(a))。
また、類似度算出閾値を明らかに下回る判定は、ステップS520において算出された類似度が閾値を一定以上下回った場合を明らかに下回ったと判定する、あるいは、ステップS520において算出された過去L回の類似度が閾値を一定以上下回った回数が一定回数以上となった場合を明らかに下回ったと判定するなどの方法による(図8(b))。
また、これらの判定手法の組み合わせによる。
なお、図8のグラフは、1組の信号の組に対する類似度の算出例を示す。
つまり、図8のグラフの各点は、1つの区間に対して算出された類似度を表す。
上記類似度算出処理を終了し、ステップS520により算出された類似度が、ステップS040において算出された類似度算出閾値を上回った場合は、類似度算出部250は、ステップS530により、当該の信号の組に対してステップS520により算出された類似度を記録する。
それ以外の場合には、類似度算出部250は、ステップS540により、当該の信号の組に対して類似度0を記録する。
なお、類似度行列を疎行列として記録する場合には、類似度0を記録することは、類似度を記録しないことと同じである。
以上の処理を全ての信号について実施することで、類似度行列を算出する。
最後に、算出された類似度行列を、クラスタリング部300に渡し、クラスタリングを行う。
このように、本実施の形態では、類似度算出対象指定部により、多数の信号を分析対象とした際に必要となる大規模な類似度行列の算出において、類似度算出対象を削減することで高速に類似度行列を算出可能とする効果を得る。
つまり、信号の特徴量に基づき、類似度の算出対象を、類似度が高いと予想される信号の組に限定することができ、効果的に類似度行列の算出を高速化することができる。
また、類似度算出部により、類似度算出対象となる信号が長い場合において、全てのデータを参照することなしに類似度算出を打ち切ることで高速に類似度を算出可能とする効果を得る。
さらに、類似度算出順序決定部により、類似度算出部における類似度算出時のディスクアクセス回数を削減することでさらに高速に類似度行列を算出可能とする効果を得る。
さらに、類似度算出順序決定部により、類似度算出部において用いる類似度算出閾値を、より少ないサンプル数でより精度の良く決定可能とする効果を得る。
以上の構成により、大規模な類似度行列の算出において、高速に類似度行列を算出可能とする効果を得る。
実施の形態2.
本実施の形態では、類似度行列算出装置002を設備管理や保守向けの分析に用いる場合について説明する。
以下では、主に実施の形態1との差分について述べている。
特に言及がないものは、実施の形態1に準じるものとする。
設備管理や保守における分析の例として、正常時と異なる挙動に注目した分析が挙げられる。
例えば、通常は連係して動作するために相関が高い機器が、故障により連係を失い相関が低下するといった現象を抽出するといった応用がある。
このような場合に、あらかじめ通常時における運転情報からクラスタリングにより相関が高い機器を抽出し、クラスタリングされた機器間の相関関係を監視することで故障の検知を行う。
しかし、発電プラントなどの大規模な設備においては、機器の動作を計測するセンサ数は数千から数万個以上あり、これらのセンサ信号からスペクトル分解などにより展開される情報も考慮するとクラスタリングの対象となる信号数は膨大なものとなる。
本実施の形態は、このような課題に対して高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とするものである。
本実施の形態においては、データ収集部100は、主に設備あるいは設備周辺の環境に設置されたセンサ類であり、通信装置を介してデータ蓄積部110に収集される。
蓄積されるデータは、例えば温度、圧力、電圧、電流などの直接計測される物理量、および、これらを変換して生成される振幅やスペクトル強度である。
また、設備管理情報として、設備の種別や使用年数、設置箇所などが記録されていることが一般的である。
本実施の形態においては、類似度として相関係数を用いる場合について述べる。
相関係数は、信号間の内積により算出されることから、特徴量導出部200において用いる特徴量としては、スペクトル強度およびスペクトルの位相が好ましい。
例えば、正規化されたスペクトル強度および位相を特徴量導出部200において算出し、N個の代表的な周波数について、特徴量記録部210に記録する。
類似度算出対象指定部220においては、上記特徴量を用いて、例えば、同じ周波数に対する強度と位相がともに±Xの範囲内にある信号を仮の類似度算出対象とし、N個の半分以上の周波数について仮の類似度算出対象となっている信号の組を類似度算出対象と判定する。
より簡易には、スペクトル強度のみを用いてもよい。
また、センサ種別や設備設置箇所などの情報により、明らかに相関が無いと判定される信号の組については、これらを特徴量として類似度算出対象判定を行い、前記スペクトル情報により類似度算出対象と判定された信号の組との間でAND演算を行うことで、明らかに相関が無いと判定される信号の組を類似度算出対象から除く。
類似度算出部250においては、設備の運転状態によって時刻ごとに相関係数が変化することを考慮して、連続的かつ等間隔に区間を区切ることが好ましい。
例えば、時刻1から100までを区間1として、時刻101から200までを区間2とするといった具合である。
計算量に余裕がある場合は、区間の重複があってもよい。
また、類似度の算出においては、区間ごとの相関係数の平均値を用いることが好ましい。
これにより、長期間における相関は正しく反映されにくくなるが、短期間における相関係数の傾向を表す指標としては良い近似となる。
なお、ここで短期間とは設備の運転状態の変化速度に相当する期間であり、例えば数時間程度である。一方、長期間とはこれに比べて十分に長い期間であり、例えば1月から1年以上を想定している。
以上のような構成により、大規模な信号数を持つ設備データに対する設備管理や保守向けの分析において、高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とする効果を得る。
実施の形態3.
本実施の形態では、類似度行列算出装置002を電力需要の分析に用いる場合について説明する。
以下では、主に実施の形態1との差分について述べている。
特に言及がないものは、実施の形態1に準じるものとする。
電力需要の分析の例として、需要家を1日の電力消費パターンによって分類する負荷曲線分析(load survey)が挙げられる。
例えば、独身世帯では朝晩に電力消費が大きく昼から夕方にかけては電力消費が少ないが、核家族世帯では昼から夕方にかけて電力消費が伸びるといった様に、需要家ごとに固有の傾向がある。
負荷曲線分析は、需要家の電力消費パターンをクラスタリングすることで、このような需要家ごとに固有の傾向を抽出するとともに、電力消費パターンの変遷を把握することで、電力会社における経営計画や設備計画に利用するといった応用がある。
近年では、スマートメータの導入が進められており、多数の需要家における電力消費パターンを細かい時間間隔で、かつ、リアルタイムに近い頻度で収集可能となる見込みである。
電力会社における需要家数は、数百万件から数千万件程度であり、負荷曲線分析において扱う信号数も同様の規模となる。
本実施の形態は、このような課題に対して高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とするものである。
本実施の形態においては、データ収集部100は、主に電力計であり、通信装置を介してデータ蓄積部110に収集される。
蓄積されるデータは、主に電力消費量である。
また、顧客情報として、契約種別や居住地域などが記録されていることが一般的である。
本実施の形態においては、類似度としてEuclid距離を用いる場合について述べる。
Euclid距離は、信号間の差の二乗により算出されることから、特徴量導出部200において用いる特徴量としては、平均や分散が好ましい。
また、電力消費パターンに固有の特徴量として、昼夜の消費電力の比や、昼間や夕方、深夜などの特徴的な時間帯における消費電力を用いてもよい。
なお、Euclid距離においては0に近いほど類似度が高いことを意味するため、0が最も類似度が小さくなるように、例えば図9に示した関係などを用いて変換したものを用いる。
類似度算出対象指定部220においては、上記特徴量を用いて、例えば、全ての特徴量において±X%の範囲内にある信号の組を類似度算出対象と判定する。
また、契約種別や居住地域などの情報により、例えば住宅用の低圧契約と工場用の高圧契約など、明らかに相関が無いと判定される信号の組については、実施の形態2と同様にして類似度算出対象から除く。
類似度算出部250においては、電力需要パターンの特徴を考慮して、人間の生活パターンに合わせた区間によって区切ることが好ましい。例えば、1日や1週間などの単位で区間を区切ることが好ましい。
Euclid距離においては、Euclid距離の二乗を保持することで容易に差分処理による類似度算出が可能である。
なお、類似度算出部250における区分とは異なるが、電力消費パターンは曜日毎に異なることが知られているので、データ蓄積部110からデータを取得する際には、例えば平日と休日に分けてデータを取得し、それぞれに対して類似度行列を算出することが好ましい。
以上のような構成により、大規模な需要家数に対する、電力需要の分析において、高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とする効果を得る。
最後に、実施の形態1〜3に示した類似度行列算出装置002のハードウェア構成例を図10を参照して説明する。
類似度行列算出装置002はコンピュータであり、類似度行列算出装置002の各要素をプログラムで実現することができる。
類似度行列算出装置002のハードウェア構成としては、バスに、演算装置901、外部記憶装置902、主記憶装置903、通信装置904、入出力装置905が接続されている。
演算装置901は、プログラムを実行するCPU(Central Processing Unit)である。
外部記憶装置902は、例えばROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置である。
主記憶装置903は、RAM(Random Access Memory)である。
特徴量記録部210は、例えば、主記憶装置903である。
通信装置904は、例えばNIC(Network Interface Card)である。
入出力装置905は、例えばマウス、キーボード、ディスプレイ装置等である。
プログラムは、通常は外部記憶装置902に記憶されており、主記憶装置903にロードされた状態で、順次演算装置901に読み込まれ、実行される。
プログラムは、図1に示す「〜部」(但し、特徴量記録部210を除く、以下も同様)として説明している機能を実現するプログラムである。
更に、外部記憶装置902にはオペレーティングシステム(OS)も記憶されており、OSの少なくとも一部が主記憶装置903にロードされ、演算装置901はOSを実行しながら、図1に示す「〜部」の機能を実現するプログラムを実行する。
また、実施の形態1〜3の説明において、「〜の判断」、「〜の判定」、「〜の指定」、「〜の決定」「〜の抽出」、「〜の算出」、「〜の計算」、「〜の導出」、「〜の選定」、「〜の選択」、「〜の推定」、「〜の生成」、「〜の入力」、「〜の出力」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置903にファイルとして記憶されている。
なお、図10の構成は、あくまでも類似度行列算出装置002のハードウェア構成の一例を示すものであり、類似度行列算出装置002のハードウェア構成は図10に記載の構成に限らず、他の構成であってもよい。
また、実施の形態1〜3に示す手順により、本発明に係るデータ処理方法を実現可能である。
001 データ蓄積装置、002 類似度行列算出装置、003 クラスタリング装置、100 データ収集部、110 データ蓄積部、200 特徴量導出部、210 特徴量記録部、220 類似度算出対象指定部、230 類似度算出順序決定部、240 閾値決定部、250 類似度算出部、300 クラスタリング部。

Claims (5)

  1. それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
    前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部と
    前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、前記類似度のレベルが継続して一定のレベルにある場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部とを有することを特徴とするデータ処理装置。
  2. それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
    前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を複数組指定する類似度算出対象指定部と
    前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが閾値を下回る場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
    前記類似度算出対象指定部により指定された複数組の信号の組に対して、無作為抽出により前記複数組の信号の組での類似度の累積分布を推定し、推定結果に基づき、前記閾値を決定する閾値決定部とを有することを特徴とするデータ処理装置。
  3. それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
    前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を複数組指定する類似度算出対象指定部と
    前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが閾値を下回る場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
    前記類似度算出対象指定部により指定された複数組の信号の組における信号ごとの出現頻度に基づき、前記複数組の信号の組に対する類似度の算出順序を決定する類似度算出順序決定部と、
    前記複数組の信号の組のうち前記類似度算出順序決定部により決定された算出順序に従い任意数の信号の組を選択し、選択した信号の組での類似度の累積分布を推定し、推定結果に基づき、前記閾値を決定する閾値決定部とを有することを特徴とするデータ処理装置。
  4. それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
    前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部と
    前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが類似度の算出を打ち切る条件である打切り条件に合致するか否かを判断し、類似度のレベルが前記打切り条件に合致する場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
    前記類似度算出対象指定部により指定された複数組の信号の組における信号ごとの出現頻度に基づき、前記複数組の信号の組に対する類似度の算出順序を決定する類似度算出順序決定部を有し、
    前記類似度算出部は、
    前記類似度算出順序決定部により決定された算出順序で、前記複数組の信号の組に対して類似度を算出することを特徴とするデータ処理装置。
  5. 前記特徴量導出部は、
    信号ごとに複数種の特徴量を導出し、
    前記類似度算出対象指定部は、
    特徴量の種類ごとに、各信号の特徴量に基づき、類似度の算出対象とする信号の組の候補を選定し、
    選定した信号の組の候補の中から、類似度の算出対象とする信号の組を指定することを特徴とする請求項1〜4のいずれかに記載のデータ処理装置。
JP2014003448A 2014-01-10 2014-01-10 データ処理装置 Active JP6207405B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014003448A JP6207405B2 (ja) 2014-01-10 2014-01-10 データ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014003448A JP6207405B2 (ja) 2014-01-10 2014-01-10 データ処理装置

Publications (2)

Publication Number Publication Date
JP2015132939A JP2015132939A (ja) 2015-07-23
JP6207405B2 true JP6207405B2 (ja) 2017-10-04

Family

ID=53900093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014003448A Active JP6207405B2 (ja) 2014-01-10 2014-01-10 データ処理装置

Country Status (1)

Country Link
JP (1) JP6207405B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3157264B1 (en) 2015-10-17 2019-02-20 Tata Consultancy Services Limited Multi-sensor data summarization
JP6677040B2 (ja) * 2016-03-24 2020-04-08 富士通株式会社 軌跡データ処理方法、軌跡データ処理プログラム及び軌跡データ処理装置
JP6964836B2 (ja) * 2017-07-31 2021-11-10 東京電力ホールディングス株式会社 類似度算出装置、類似度算出方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3951707B2 (ja) * 2001-12-28 2007-08-01 日本電気株式会社 類似性判定方法および装置
US9417981B2 (en) * 2011-05-11 2016-08-16 Hitachi, Ltd. Data processing system, data processing method, and program

Also Published As

Publication number Publication date
JP2015132939A (ja) 2015-07-23

Similar Documents

Publication Publication Date Title
Rajabi et al. A comparative study of clustering techniques for electrical load pattern segmentation
Hyndman et al. Large-scale unusual time series detection
CN105071983B (zh) 一种面向云计算在线业务的异常负载检测方法
Rajabi et al. A pattern recognition methodology for analyzing residential customers load data and targeting demand response applications
Alzate et al. Improved electricity load forecasting via kernel spectral clustering of smart meters
CN105378714B (zh) 时间序列的快速分组
CN112084229A (zh) 一种识别城镇燃气用户异常用气行为的方法及装置
Vercamer et al. Predicting consumer load profiles using commercial and open data
Laurinec et al. Interpretable multiple data streams clustering with clipped streams representation for the improvement of electricity consumption forecasting
Johnpaul et al. Trendlets: A novel probabilistic representational structures for clustering the time series data
CN113626502B (zh) 基于集成学习的电网数据异常检测方法及装置
KR20190013038A (ko) 다중 특징 추출기법을 이용한 다중 시계열 데이터 추세 예측 시스템 및 예측 방법
CN114997321A (zh) 一种台区户变关系识别方法、装置、电子设备及存储介质
JP6207405B2 (ja) データ処理装置
Shamim et al. Multi-domain feature extraction for improved clustering of smart meter data
Nordahl et al. Profiling of household residents’ electricity consumption behavior using clustering analysis
Cui et al. Realizing multifractality of smart meter data for household characteristic prediction
Mishra et al. Graft: A graph based time series data mining framework
Attallah et al. An open-source, semisupervised water end-use disaggregation and classification tool
CN110288383B (zh) 基于用户属性标签的群体行为配电网用电异常检测方法
Sánchez-Zuleta et al. Identification of the characteristics incident to the detection of non-technical losses for two Colombian energy companies
Zhang et al. A cost-sensitive active learning algorithm: toward imbalanced time series forecasting
CN112734072A (zh) 电力负荷预测方法、系统、终端设备及介质
Spate et al. Data mining in hydrology
Xu et al. An approach to cluster electrical load profiles based on piecewise symbolic aggregation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170905

R150 Certificate of patent or registration of utility model

Ref document number: 6207405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250