JP6207405B2 - データ処理装置 - Google Patents
データ処理装置 Download PDFInfo
- Publication number
- JP6207405B2 JP6207405B2 JP2014003448A JP2014003448A JP6207405B2 JP 6207405 B2 JP6207405 B2 JP 6207405B2 JP 2014003448 A JP2014003448 A JP 2014003448A JP 2014003448 A JP2014003448 A JP 2014003448A JP 6207405 B2 JP6207405 B2 JP 6207405B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- signals
- signal
- unit
- similarity calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
例えば、工場等において各種センサから計測されたデータをもとに、類似の挙動を示す機器を分類する、あるいは、電力会社において需要家ごとに設置された電力計によって計測されたデータをもとに、類似の電力消費パターンを有する需要家を分類するといった応用がある。
とくに、近年では大量に蓄積された多数の信号に対するクラスタリングの需要が高まっている。
類似度行列を陽に用いる手法としては、例えば階層的クラスタリング手法(hierarchical clustering)やスペクトラルクラスタリング手法(spectral clustering)などがある。
類似度行列を陽に用いない手法としては、例えばk−means法や統計的な分布推定手法によるものなどがある。
また、類似度行列において用いられる類似度としては、例えばEuclid距離や相関係数、相互情報量などがある。
本明細書では、類似度行列を陽に用いるクラスタリング手法における計算効率を高める方法を開示する。
特に、多数の信号を分析対象とした際に必要となる大規模な類似度行列を、高速に算出可能とする方法を開示する。
特許文献1では、階層的クラスタリング手法によるクラスタリングにおいて、類似度行列を高速に並べ替える方法が開示されている。
特許文献2では、k−means法によるクラスタリングにおいて、類似度を高速に算出する方法が開示されている。
このため、従来技術においては、類似度行列が大規模となった場合に、類似度行列算出に要する時間が大きくなり、クラスタリング全体としての処理時間が増大するという課題がある。
また、1つの信号の組に対する類似度算出処理を高速化する手法が提案されているが、類似度行列の算出に必要な信号の組み合わせ数は信号数の2乗に比例するため、類似度行列が大規模となった場合に、類似度算出処理の回数が大きくなり、類似度算出処理全体として処理時間が増大するという課題がある。
さらに、クラスタリングおよび類似度算出処理を高速化する手法として、類似度の低い信号の組に対する類似度算出処理を途中で打ち切り0と見做すことで類似度算出処理を高速化するとともに、類似度行列の要素における0の割合を高めることで類似度行列を疎行列としてクラスタリングを高速化するといった手法が考えられるが、適切な打ち切り基準を設定するためには予め類似度行列の全体を把握しておく必要があるという課題がある。
特許文献1においては、類似度行列を所与のものとして、類似度行列の並べ替えを高速化する手法が開示されている。
この手法において、類似度行列の算出が高速化されないことは言うまでもない。
また、並べ替えの目的は類似度が高い信号の組を発見することであるので、類似度行列が大規模となった場合においては、類似度が高い信号の組の類似度のみを保持して並べ替えの対象とすることで、並べ替えの高速化が可能と考えられるが、このような方法については開示も示唆もされていない。
特許文献2においては、類似度としてヒストグラムの距離を採用した場合において、ヒストグラムを周波数領域で圧縮することにより類似度算出処理を高速化する方法が開示されている。
この手法においては、1つの信号の組に対する類似度算出処理は高速化されるが、類似度行列の全体を計算するために必要な計算回数は変わらないという課題がある。
一方で、大規模な類似度行列においては、多くの信号の組において類似度は低いと想定されるため、不要な計算を打ち切り、計算回数を削減することで高速化が可能と考えられるが、このような方法については開示も示唆もされていない。
また、計算機のメモリは有限であるので、ヒストグラムの様なデータ量の小さな信号であっても、類似度算出対象となる信号数が大規模となった場合には、全ての信号のデータを高速なメモリ上に保存しておくことは不可能となるので、データ読み出しのためのディスクアクセスによる処理速度低下などが発生すると考えられるが、このような課題を解決する方法については開示も示唆もされていない。
複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部とを有することを特徴とする。
図1は、実施の形態1に係る類似度行列算出装置002を含むシステム構成例を表す図である。
類似度行列算出装置002は、データ処理装置の例に相当する。
データ収集部100は、任意のデータを収集する手段であって、例えば温度、圧力、電圧、電流などの物理量だけでなく、これらを変換して生成される振幅やスペクトル強度、異常発生回数などの各種指標、または、位置情報や販売情報、経済指標などを収集してもよい。
データ収集部100で収集されたデータは、複数の信号から構成される。
また、各信号は、複数の信号値で構成される。
各信号では、複数の信号値が例えば時系列に配列されている。
データ蓄積部110は、類似度行列算出装置002からのデータ提供の要求に従ってデータの提供を行うものであり、DBMS(DataBase Management System)などを備えることが望ましい。
クラスタリング部300は、類似度行列算出装置002によって算出された類似度行列を用いてクラスタリングを行う。
例えば、前記の階層的クラスタリング手法やスペクトラルクラスタリング手法などにより、クラスタリングを行う。
特徴量は、信号の特徴を表す任意の指標である。
特徴量は、例えば信号の特徴である、平均値、分散などの統計量や、積算値、スペクトル強度などでだけでなく、信号源の特徴である、設備の種別や使用年数、設置箇所などを用いてもよい。
なお、以下では、特徴量をデータ特徴ともいう。
図5に特徴量の記録例を示す。
特徴量記録部210は、少なくとも、信号を特定するための信号ID(Identifier)と、1つの特徴量を記録する。
特徴量は、特徴量導出部200で導出された特徴量であって、数値またはラベルを表す文字列である。
また、特徴量はそれぞれ降順または昇順に整列して記録する。
なお、特徴量は、必ずしも全てを記録する必要は無く、該当する特徴量が存在しない場合や、特徴量導出部200において特徴量が導出できなかった場合などにおいては、特徴量の欠損を示す記号を記録する。
この際、当該特徴量が欠損した信号を、類似度算出対象指定部220において、類似度算出対象とするか類似度算出対象外とするか判定できるように、欠損理由により異なる記号を付すことが好ましい。
類似度算出対象指定部220においては、算出しようとする類似度に対応してあらかじめ定められた規則に従って、類似度算出対象の判定に用いる特徴量を選択し、各特徴量における類似度算出対象判定結果を算出した後、これらの結果を演算により組み合わせることで、類似度算出対象となる信号の組の一覧を算出する。
類似度算出対象指定部220は、各信号の特徴量に基づいて、類似度が高いと予想される信号の組を、類似度の算出対象に指定する。
類似度算出対象指定部220においては、類似度判定を、整列された1次元空間の特徴量に限定して行うことで、連続した至近のデータとの比較のみによって類似度の判定が可能となる。
これにより、2次元以上の空間における特徴量を用いた場合に生じる信号数の組み合わせによる計算時間の増大を抑制し、高速な類似度判定を可能とする効果を得る。
類似度算出順序は、最も多く類似度算出対象となっている信号から優先的に類似度が算出されるように構成する。
このように類似度算出順序決定部230を構成することにより、類似度行列を算出する際に、上位の信号から順にまとめて並列処理することで、ディスク装置から読みだされた信号がメモリ上にキャッシュされる時間を最大化し、ディスクアクセス回数を低減することにより類似度行列の算出を高速化する効果を得る。
類度度算出閾値の算出は、いくつかの信号の組において算出された類似度から全体の類似度の分布を推定することで行う。
類似度算出対象とする信号の抽出は、類似度算出対象指定部220において算出された類似度算出対象となる信号を対象とした無作為抽出、または、類似度算出順序決定部230において優先度が高いと判定された信号の組からの抽出によって行う。
このように閾値決定部240を構成することにより、類似度の分布を推定する際に、明らかに類似度が低いと想定される信号の組については類似度の計算をせずに、類似度が高いと想定される信号の組から抽出した信号の組に対してのみ類似度を計算するため、少ない計算回数で類似度の分布が推定可能となる効果を得る。
より具体的には、類似度算出部250は、類似度算出対象の信号を区分的に処理して区分ごとに類似度を算出する。
また、類似度算出部250は、類似度のレベルが、類似度の算出を打ち切る条件である打切り条件に合致するか否かを判断し、類似度のレベルが前記打切り条件に合致する場合に、当該信号の組に対する類似度の算出を打ち切る。
例えば、類似度算出部250は、類似度のレベルが閾値決定部240によって定められた閾値を明らかに下回ることを打切り条件とする。
つまり、類似度のレベルが閾値決定部240によって定められた閾値を明らかに下回る信号の組については、類似度算出処理を打ち切り、類似度0と見做す。
また、例えば、類似度算出部250は、類似度のレベルが継続して一定のレベルにあること(収束したこと)を打切り条件とする。
つまり、類度のレベルが一定レベルにとどまり、類似度が収束したと判定できる場合も同様に処理を打ち切り、収束した値を類似度と見做す。
このように類似度算出部250を構成することにより、時系列データなどの類似度算出対象となる信号が長い場合において、全てのデータを参照することなしに類似度算出を打ち切ることができるため、類似度算出を高速化する効果を得る。
ステップS010において、特徴量導出部200は、データ蓄積部110に蓄積されたデータを用いて、信号ごとに特徴量を導出する。
また、導出された特徴量は、信号IDと関連付けてそれぞれ降順または昇順に整列した状態で特徴量記録部210に記録する。
図3は、この処理における動作の詳細を示した図である。
類似度算出対象判定処理は、近傍N点を用いる手法、または、半径N内にある点を用いる手法が簡易である。
また、より厳密には、カーネル密度推定により変曲点を抽出する手法や、混合正規分布推定により近傍Nσを用いる手法などを用いることが望ましい(図6)。
また、類似度算出対象を制限する目的から、類似度算出対象とする信号の数に上限を設けてもよい。
また、類似度算出対象が過剰に抑制されることを避けるために類似度算出対象とする信号の数に下限を設けてもよい。
例えば、特徴量1、特徴量2、特徴量3の3つの特徴量における類似度判定結果を元に、「特徴量1かつ特徴量2において類似度算出対象の候補として選定された信号の組、または、特徴量3において類似度算出対象の候補として選定された信号の組」を、最終的な類似度算出対象となる信号の組に決定して出力する。
あるいは、「2つ以上の特徴量において類似度算出対象の候補として選定された信号の組」を、最終的な類似度算出対象となる信号の組に決定して出力する。
なお、類似度算出対象となる信号の組の決定方法は、これらに限られない。
ステップS030において、類似度算出順序決定部230は、ステップS020において算出された類似度算出対象となる信号の組の一覧から、信号ごとに出現回数を計数し、出現回数が最も多い信号Aを優先度1として記録する。
つぎに、信号Aとともに類似度算出対象となっている信号のうち、出現回数が最も多い信号の上位N−1個を上から順に優先度2からNとして記録する。
同様にして、類似度算出対象となる信号の組の一覧から、優先度1からNまでの信号を除いた残りの信号のうち、出現回数が最も多い信号Bを優先度N+1として記録し、信号Bとともに類似度算出対象となっている信号のうち、出現回数が最も多い信号の上位N−1個を上から順に優先度N+2から2Nとして記録する。
以下同様にして、類似度算出対象となっている信号の組がなくなるまで、優先度を算出して記録する。
この処理は、類似度行列の算出がクラスタリングを行うことを目的としていることに鑑みてなされるものである。
すなわち、類似度行列がクラスタを構成すると仮定すれば、信号Aと類似度が高い信号同士もまた類似度が高いと期待される。
従って、このように優先度を構成することで、類似度算出対象となる信号の組が簡易的にクラスタリングされるため、並列度Nによって優先度の高い順に類似度算出処理を行った際に、信号データの再利用性が高まり、ディスクアクセス回数を低減する効果を得る。
区分的類似度算出処理(S050)を並列処理にて実施しない場合は、例えば、以下の方法により算出順序を決定してもよい。
(1)信号の組の一覧から、信号ごとに出現回数を計数し、出現回数が最も多い信号を優先度1として記録する。
(2)優先度1の信号と組になっている信号の出現回数を1つ減らした後、優先度1の信号を除いた信号の中で出現回数が最も多い信号を優先度2として記録する。
(3)優先度2の信号と組になっている信号の出現回数を1つ減らした後、優先度1、2の信号を除いた信号の中で出現回数が最も多い信号を優先度3として記録する。
(4)以降、同様にして、優先度(n−1)と組になっている信号の出現回数を1つ減らした後、優先度1〜(n−1)の信号を除いた信号の中で出現回数が最も多い信号を優先度nとして記録する。
ステップS040において、閾値決定部240は、ステップS020において算出された類似度算出対象となる信号の組の一覧から、無作為にJ組(J≧1)を抽出し、類似度を算出する。
算出した類似度から、カーネル密度推定手法などにより類似度の累積分布関数を推定し、あらかじめ定めた疎行列化後の非零要素数の割合を指定する疎行列化密度パラメータと累積分布関数の交点から類似度算出閾値を決定する。
図7のグラフは、類似度の累積分布関数の推定結果を模したものである。
グラフのうち実線で表わされたプロットが、類似度算出対象となる信号の組から無作為抽出により推定された累積分布関数を表しており、これに続く破線で表わされたプロットは、類似度算出対象外となる要素数の割合から推定された類似度が小さい領域における累積分布関数を表している。
このような累積分布関数を用いることで、例えば類似度行列の非零要素の割合を10%としたい場合には、累積分布が0.9以下となる類似度を0とすればよく、従って累積分布関数において疎行列化密度パラメータp=0.9とし、累積分布がpとなる類似度qを類似度算出閾値として採用することで、q以下の類似度を0とした際の類似度行列の非零要素の割合をおよそ10%とすることができる。
なお、類似度算出閾値を導入した意図から明らかであるが、類似度算出閾値は、類似度算出対象となる信号の組から推定された累積分布関数上(図7実線部)に位置する。
このため、この領域に限定して信号の組を抽出することで、全ての信号の組から抽出を行った場合と比べて、より少ないサンプル数でより精度の良い類似度算出閾値を決定可能とする効果を得る。
すなわち、類似度算出順序において優先度が高い信号の上位M(M≧1)個の信号を選択し、選択したM個の信号について類似度算出対象となっている信号の組の類似度を算出し、これを持って前記の無作為抽出に代える。
これにより、類似度算出対象の信号が大きい場合における、キャッシュ効率を向上し、ディスクアクセス回数を低減することにより類似度算出処理を高速化する効果を得る。
また、類似度算出処理には、類似度算出部250を閾値無しで用いることで、さらに類似度算出処理を高速化する効果を得る。
並列処理を行う場合は、優先度が最も高い信号上位N個を抽出し、同じくK個の区間に区分する。
ここで、区間とは信号から抽出されたサンプル(信号値)の集合を意味しており、必ずしも連続的または排他的な区間に限らない。
例えば、信号値が時系列に配列されている信号の場合、時刻0から100までの信号値を区間1として、時刻50から150までの信号値を区間2とするような重複を持つ区間であってもよい。
また、同じく時系列データにおいて、毎時刻の0分における信号値を区間1として、毎時刻の10分における信号値を区間2とするような不連続な区間であってもよい。
信号Bを抽出する際には、ステップS020において算出された類似度算出対象となる信号の組を参照し、信号Aに対して類似度算出対象とならない信号については処理を行わずに、次に優先度が高い信号に対して処理を継続する。
また、並列処理を行う場合は、ステップS500において抽出したN個の信号のいずれかに対して類似度算出対象となっている信号について、処理を行う。
ただし、ステップS520以降の類似度算出処理は、類似度算出対象となっている信号の組に対してのみ行うことが好ましい。
なお、2回目以降にこの処理を行う場合には、既に類似度を算出済みの区間は無作為抽出の対象から除く。
また、類似度は、差分処理により、抽出済みの全区間に対して算出することが好ましいが、各区間における類似度の平均値や期待値などの統計量で代用してもよい。
また、全ての区間について類似度の算出が完了していない場合であっても、ステップS520において算出された類似度が収束したと判断された場合は、類似度算出部250は、類似度算出処理を終了し、閾値判定処理を行う。
さらに、いずれの類似度算出処理の終了条件を満たしていない場合であっても、ステップS520において算出された類似度が、ステップS040において算出された類似度算出閾値を明らかに下回ると判断された場合は、類似度算出部250は、類似度算出処理を終了する。
収束の判定は、例えばステップS520において算出された類似度と前回のステップS520において算出された類似度との差が一定以下である場合を収束と判定する、あるいは、ステップS520において算出された過去L回の類似度の分散が一定以下である場合を収束と判定するなどの方法による(図8(a))。
また、類似度算出閾値を明らかに下回る判定は、ステップS520において算出された類似度が閾値を一定以上下回った場合を明らかに下回ったと判定する、あるいは、ステップS520において算出された過去L回の類似度が閾値を一定以上下回った回数が一定回数以上となった場合を明らかに下回ったと判定するなどの方法による(図8(b))。
また、これらの判定手法の組み合わせによる。
なお、図8のグラフは、1組の信号の組に対する類似度の算出例を示す。
つまり、図8のグラフの各点は、1つの区間に対して算出された類似度を表す。
それ以外の場合には、類似度算出部250は、ステップS540により、当該の信号の組に対して類似度0を記録する。
なお、類似度行列を疎行列として記録する場合には、類似度0を記録することは、類似度を記録しないことと同じである。
最後に、算出された類似度行列を、クラスタリング部300に渡し、クラスタリングを行う。
つまり、信号の特徴量に基づき、類似度の算出対象を、類似度が高いと予想される信号の組に限定することができ、効果的に類似度行列の算出を高速化することができる。
また、類似度算出部により、類似度算出対象となる信号が長い場合において、全てのデータを参照することなしに類似度算出を打ち切ることで高速に類似度を算出可能とする効果を得る。
さらに、類似度算出順序決定部により、類似度算出部における類似度算出時のディスクアクセス回数を削減することでさらに高速に類似度行列を算出可能とする効果を得る。
さらに、類似度算出順序決定部により、類似度算出部において用いる類似度算出閾値を、より少ないサンプル数でより精度の良く決定可能とする効果を得る。
以上の構成により、大規模な類似度行列の算出において、高速に類似度行列を算出可能とする効果を得る。
本実施の形態では、類似度行列算出装置002を設備管理や保守向けの分析に用いる場合について説明する。
以下では、主に実施の形態1との差分について述べている。
特に言及がないものは、実施の形態1に準じるものとする。
例えば、通常は連係して動作するために相関が高い機器が、故障により連係を失い相関が低下するといった現象を抽出するといった応用がある。
このような場合に、あらかじめ通常時における運転情報からクラスタリングにより相関が高い機器を抽出し、クラスタリングされた機器間の相関関係を監視することで故障の検知を行う。
しかし、発電プラントなどの大規模な設備においては、機器の動作を計測するセンサ数は数千から数万個以上あり、これらのセンサ信号からスペクトル分解などにより展開される情報も考慮するとクラスタリングの対象となる信号数は膨大なものとなる。
本実施の形態は、このような課題に対して高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とするものである。
蓄積されるデータは、例えば温度、圧力、電圧、電流などの直接計測される物理量、および、これらを変換して生成される振幅やスペクトル強度である。
また、設備管理情報として、設備の種別や使用年数、設置箇所などが記録されていることが一般的である。
相関係数は、信号間の内積により算出されることから、特徴量導出部200において用いる特徴量としては、スペクトル強度およびスペクトルの位相が好ましい。
例えば、正規化されたスペクトル強度および位相を特徴量導出部200において算出し、N個の代表的な周波数について、特徴量記録部210に記録する。
より簡易には、スペクトル強度のみを用いてもよい。
また、センサ種別や設備設置箇所などの情報により、明らかに相関が無いと判定される信号の組については、これらを特徴量として類似度算出対象判定を行い、前記スペクトル情報により類似度算出対象と判定された信号の組との間でAND演算を行うことで、明らかに相関が無いと判定される信号の組を類似度算出対象から除く。
例えば、時刻1から100までを区間1として、時刻101から200までを区間2とするといった具合である。
計算量に余裕がある場合は、区間の重複があってもよい。
また、類似度の算出においては、区間ごとの相関係数の平均値を用いることが好ましい。
これにより、長期間における相関は正しく反映されにくくなるが、短期間における相関係数の傾向を表す指標としては良い近似となる。
なお、ここで短期間とは設備の運転状態の変化速度に相当する期間であり、例えば数時間程度である。一方、長期間とはこれに比べて十分に長い期間であり、例えば1月から1年以上を想定している。
本実施の形態では、類似度行列算出装置002を電力需要の分析に用いる場合について説明する。
以下では、主に実施の形態1との差分について述べている。
特に言及がないものは、実施の形態1に準じるものとする。
例えば、独身世帯では朝晩に電力消費が大きく昼から夕方にかけては電力消費が少ないが、核家族世帯では昼から夕方にかけて電力消費が伸びるといった様に、需要家ごとに固有の傾向がある。
負荷曲線分析は、需要家の電力消費パターンをクラスタリングすることで、このような需要家ごとに固有の傾向を抽出するとともに、電力消費パターンの変遷を把握することで、電力会社における経営計画や設備計画に利用するといった応用がある。
電力会社における需要家数は、数百万件から数千万件程度であり、負荷曲線分析において扱う信号数も同様の規模となる。
本実施の形態は、このような課題に対して高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とするものである。
蓄積されるデータは、主に電力消費量である。
また、顧客情報として、契約種別や居住地域などが記録されていることが一般的である。
Euclid距離は、信号間の差の二乗により算出されることから、特徴量導出部200において用いる特徴量としては、平均や分散が好ましい。
また、電力消費パターンに固有の特徴量として、昼夜の消費電力の比や、昼間や夕方、深夜などの特徴的な時間帯における消費電力を用いてもよい。
なお、Euclid距離においては0に近いほど類似度が高いことを意味するため、0が最も類似度が小さくなるように、例えば図9に示した関係などを用いて変換したものを用いる。
また、契約種別や居住地域などの情報により、例えば住宅用の低圧契約と工場用の高圧契約など、明らかに相関が無いと判定される信号の組については、実施の形態2と同様にして類似度算出対象から除く。
Euclid距離においては、Euclid距離の二乗を保持することで容易に差分処理による類似度算出が可能である。
なお、類似度算出部250における区分とは異なるが、電力消費パターンは曜日毎に異なることが知られているので、データ蓄積部110からデータを取得する際には、例えば平日と休日に分けてデータを取得し、それぞれに対して類似度行列を算出することが好ましい。
類似度行列算出装置002はコンピュータであり、類似度行列算出装置002の各要素をプログラムで実現することができる。
類似度行列算出装置002のハードウェア構成としては、バスに、演算装置901、外部記憶装置902、主記憶装置903、通信装置904、入出力装置905が接続されている。
外部記憶装置902は、例えばROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置である。
主記憶装置903は、RAM(Random Access Memory)である。
特徴量記録部210は、例えば、主記憶装置903である。
通信装置904は、例えばNIC(Network Interface Card)である。
入出力装置905は、例えばマウス、キーボード、ディスプレイ装置等である。
プログラムは、図1に示す「〜部」(但し、特徴量記録部210を除く、以下も同様)として説明している機能を実現するプログラムである。
更に、外部記憶装置902にはオペレーティングシステム(OS)も記憶されており、OSの少なくとも一部が主記憶装置903にロードされ、演算装置901はOSを実行しながら、図1に示す「〜部」の機能を実現するプログラムを実行する。
また、実施の形態1〜3の説明において、「〜の判断」、「〜の判定」、「〜の指定」、「〜の決定」「〜の抽出」、「〜の算出」、「〜の計算」、「〜の導出」、「〜の選定」、「〜の選択」、「〜の推定」、「〜の生成」、「〜の入力」、「〜の出力」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置903にファイルとして記憶されている。
Claims (5)
- それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、前記類似度のレベルが継続して一定のレベルにある場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部とを有することを特徴とするデータ処理装置。 - それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を複数組指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが閾値を下回る場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
前記類似度算出対象指定部により指定された複数組の信号の組に対して、無作為抽出により前記複数組の信号の組での類似度の累積分布を推定し、推定結果に基づき、前記閾値を決定する閾値決定部とを有することを特徴とするデータ処理装置。 - それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を複数組指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが閾値を下回る場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
前記類似度算出対象指定部により指定された複数組の信号の組における信号ごとの出現頻度に基づき、前記複数組の信号の組に対する類似度の算出順序を決定する類似度算出順序決定部と、
前記複数組の信号の組のうち前記類似度算出順序決定部により決定された算出順序に従い任意数の信号の組を選択し、選択した信号の組での類似度の累積分布を推定し、推定結果に基づき、前記閾値を決定する閾値決定部とを有することを特徴とするデータ処理装置。 - それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが類似度の算出を打ち切る条件である打切り条件に合致するか否かを判断し、類似度のレベルが前記打切り条件に合致する場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
前記類似度算出対象指定部により指定された複数組の信号の組における信号ごとの出現頻度に基づき、前記複数組の信号の組に対する類似度の算出順序を決定する類似度算出順序決定部を有し、
前記類似度算出部は、
前記類似度算出順序決定部により決定された算出順序で、前記複数組の信号の組に対して類似度を算出することを特徴とするデータ処理装置。 - 前記特徴量導出部は、
信号ごとに複数種の特徴量を導出し、
前記類似度算出対象指定部は、
特徴量の種類ごとに、各信号の特徴量に基づき、類似度の算出対象とする信号の組の候補を選定し、
選定した信号の組の候補の中から、類似度の算出対象とする信号の組を指定することを特徴とする請求項1〜4のいずれかに記載のデータ処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014003448A JP6207405B2 (ja) | 2014-01-10 | 2014-01-10 | データ処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014003448A JP6207405B2 (ja) | 2014-01-10 | 2014-01-10 | データ処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015132939A JP2015132939A (ja) | 2015-07-23 |
JP6207405B2 true JP6207405B2 (ja) | 2017-10-04 |
Family
ID=53900093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014003448A Active JP6207405B2 (ja) | 2014-01-10 | 2014-01-10 | データ処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6207405B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3157264B1 (en) | 2015-10-17 | 2019-02-20 | Tata Consultancy Services Limited | Multi-sensor data summarization |
JP6677040B2 (ja) * | 2016-03-24 | 2020-04-08 | 富士通株式会社 | 軌跡データ処理方法、軌跡データ処理プログラム及び軌跡データ処理装置 |
JP6964836B2 (ja) * | 2017-07-31 | 2021-11-10 | 東京電力ホールディングス株式会社 | 類似度算出装置、類似度算出方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3951707B2 (ja) * | 2001-12-28 | 2007-08-01 | 日本電気株式会社 | 類似性判定方法および装置 |
US9417981B2 (en) * | 2011-05-11 | 2016-08-16 | Hitachi, Ltd. | Data processing system, data processing method, and program |
-
2014
- 2014-01-10 JP JP2014003448A patent/JP6207405B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015132939A (ja) | 2015-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rajabi et al. | A comparative study of clustering techniques for electrical load pattern segmentation | |
Hyndman et al. | Large-scale unusual time series detection | |
CN105071983B (zh) | 一种面向云计算在线业务的异常负载检测方法 | |
Rajabi et al. | A pattern recognition methodology for analyzing residential customers load data and targeting demand response applications | |
Alzate et al. | Improved electricity load forecasting via kernel spectral clustering of smart meters | |
CN105378714B (zh) | 时间序列的快速分组 | |
CN112084229A (zh) | 一种识别城镇燃气用户异常用气行为的方法及装置 | |
Vercamer et al. | Predicting consumer load profiles using commercial and open data | |
Laurinec et al. | Interpretable multiple data streams clustering with clipped streams representation for the improvement of electricity consumption forecasting | |
Johnpaul et al. | Trendlets: A novel probabilistic representational structures for clustering the time series data | |
CN113626502B (zh) | 基于集成学习的电网数据异常检测方法及装置 | |
KR20190013038A (ko) | 다중 특징 추출기법을 이용한 다중 시계열 데이터 추세 예측 시스템 및 예측 방법 | |
CN114997321A (zh) | 一种台区户变关系识别方法、装置、电子设备及存储介质 | |
JP6207405B2 (ja) | データ処理装置 | |
Shamim et al. | Multi-domain feature extraction for improved clustering of smart meter data | |
Nordahl et al. | Profiling of household residents’ electricity consumption behavior using clustering analysis | |
Cui et al. | Realizing multifractality of smart meter data for household characteristic prediction | |
Mishra et al. | Graft: A graph based time series data mining framework | |
Attallah et al. | An open-source, semisupervised water end-use disaggregation and classification tool | |
CN110288383B (zh) | 基于用户属性标签的群体行为配电网用电异常检测方法 | |
Sánchez-Zuleta et al. | Identification of the characteristics incident to the detection of non-technical losses for two Colombian energy companies | |
Zhang et al. | A cost-sensitive active learning algorithm: toward imbalanced time series forecasting | |
CN112734072A (zh) | 电力负荷预测方法、系统、终端设备及介质 | |
Spate et al. | Data mining in hydrology | |
Xu et al. | An approach to cluster electrical load profiles based on piecewise symbolic aggregation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6207405 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |