JP6207405B2

JP6207405B2 - データ処理装置

Info

Publication number: JP6207405B2
Application number: JP2014003448A
Authority: JP
Inventors: 飛仙平田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-01-10
Filing date: 2014-01-10
Publication date: 2017-10-04
Anticipated expiration: 2034-01-10
Also published as: JP2015132939A

Description

本発明は、信号間の類似度を算出する技術に関する。

複数の信号の関係を分析する際に、信号間の類似度合いに基づいて、信号を分類（クラスタリング）したいという要求がある。
例えば、工場等において各種センサから計測されたデータをもとに、類似の挙動を示す機器を分類する、あるいは、電力会社において需要家ごとに設置された電力計によって計測されたデータをもとに、類似の電力消費パターンを有する需要家を分類するといった応用がある。
とくに、近年では大量に蓄積された多数の信号に対するクラスタリングの需要が高まっている。

クラスタリングに関する従来技術として、信号間の類似度合いを定義した行列である、類似度行列（ｓｉｍｉｌａｒｉｔｙｍａｔｒｉｘ）を陽に用いる手法と用いない手法がある。
類似度行列を陽に用いる手法としては、例えば階層的クラスタリング手法（ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇ）やスペクトラルクラスタリング手法（ｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ）などがある。
類似度行列を陽に用いない手法としては、例えばｋ−ｍｅａｎｓ法や統計的な分布推定手法によるものなどがある。
また、類似度行列において用いられる類似度としては、例えばＥｕｃｌｉｄ距離や相関係数、相互情報量などがある。
本明細書では、類似度行列を陽に用いるクラスタリング手法における計算効率を高める方法を開示する。
特に、多数の信号を分析対象とした際に必要となる大規模な類似度行列を、高速に算出可能とする方法を開示する。

従来のクラスタリング手法に関する技術としては、例えば特許文献１及び特許文献２に記載の技術がある。
特許文献１では、階層的クラスタリング手法によるクラスタリングにおいて、類似度行列を高速に並べ替える方法が開示されている。
特許文献２では、ｋ−ｍｅａｎｓ法によるクラスタリングにおいて、類似度を高速に算出する方法が開示されている。

特開２００９−１４６２１５号公報特開２００８−１３４７５０号公報

本発明の主な目的は、多数の信号を分析対象とした際に必要となる大規模な類似度行列を、高速に算出可能とする構成を提供することである。

従来技術においては、クラスタリングを行う場合において、類似度行列は所与のものとして計算済みであることを前提としているという課題がある。
このため、従来技術においては、類似度行列が大規模となった場合に、類似度行列算出に要する時間が大きくなり、クラスタリング全体としての処理時間が増大するという課題がある。
また、１つの信号の組に対する類似度算出処理を高速化する手法が提案されているが、類似度行列の算出に必要な信号の組み合わせ数は信号数の２乗に比例するため、類似度行列が大規模となった場合に、類似度算出処理の回数が大きくなり、類似度算出処理全体として処理時間が増大するという課題がある。
さらに、クラスタリングおよび類似度算出処理を高速化する手法として、類似度の低い信号の組に対する類似度算出処理を途中で打ち切り０と見做すことで類似度算出処理を高速化するとともに、類似度行列の要素における０の割合を高めることで類似度行列を疎行列としてクラスタリングを高速化するといった手法が考えられるが、適切な打ち切り基準を設定するためには予め類似度行列の全体を把握しておく必要があるという課題がある。

特許文献１は、階層的クラスタリングを高速化する例である。
特許文献１においては、類似度行列を所与のものとして、類似度行列の並べ替えを高速化する手法が開示されている。
この手法において、類似度行列の算出が高速化されないことは言うまでもない。
また、並べ替えの目的は類似度が高い信号の組を発見することであるので、類似度行列が大規模となった場合においては、類似度が高い信号の組の類似度のみを保持して並べ替えの対象とすることで、並べ替えの高速化が可能と考えられるが、このような方法については開示も示唆もされていない。

特許文献２は、類似度算出処理を高速化する例である。
特許文献２においては、類似度としてヒストグラムの距離を採用した場合において、ヒストグラムを周波数領域で圧縮することにより類似度算出処理を高速化する方法が開示されている。
この手法においては、１つの信号の組に対する類似度算出処理は高速化されるが、類似度行列の全体を計算するために必要な計算回数は変わらないという課題がある。
一方で、大規模な類似度行列においては、多くの信号の組において類似度は低いと想定されるため、不要な計算を打ち切り、計算回数を削減することで高速化が可能と考えられるが、このような方法については開示も示唆もされていない。
また、計算機のメモリは有限であるので、ヒストグラムの様なデータ量の小さな信号であっても、類似度算出対象となる信号数が大規模となった場合には、全ての信号のデータを高速なメモリ上に保存しておくことは不可能となるので、データ読み出しのためのディスクアクセスによる処理速度低下などが発生すると考えられるが、このような課題を解決する方法については開示も示唆もされていない。

このように、多数の信号に対してクラスタリングを行う際には、類似度行列の算出を高速化することが必要となるが、従来技術においては、本発明が解決しようとする上記の課題については開示も示唆もされていない。

本発明は、前述したように、多数の信号を分析対象とした際に必要となる大規模な類似度行列を、高速に算出可能とする構成を提供することを主な目的とする。

本発明に係るデータ処理装置は、
複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部とを有することを特徴とする。

本発明によれば、信号の特徴量に基づき、類似度の算出対象を、類似度が高いと予想される信号の組に限定することができ、効果的に類似度行列の算出を高速化することができる。

実施の形態１に係るシステム構成例を示す図。実施の形態１に係る類似度行列算出装置の動作例を示すフローチャート図。実施の形態１に係る類似度算出対象判定処理を示すフローチャート図。実施の形態１に係る区分的類似度算出処理を示すフローチャート図。実施の形態１に係る特徴量記録イメージを示す図。実施の形態１に係る混合正規分布推定による類似度算出対象判定イメージを示す図。実施の形態１に係る累積分布関数による類似度算出閾値決定イメージを示す図。実施の形態１に係る類似度算出処理の終了判定イメージを示す図。実施の形態１に係る指数関数による距離から類似度への変換式を示す図。実施の形態１に係る類似度行列算出装置のハードウェア構成例を示す図。

実施の形態１．
図１は、実施の形態１に係る類似度行列算出装置００２を含むシステム構成例を表す図である。

図１において、類似度行列算出装置００２は、データ蓄積装置００１に蓄積されたデータを入力として、これを処理して類似度行列を算出し、クラスタリング装置００３に提供する。
類似度行列算出装置００２は、データ処理装置の例に相当する。

データ蓄積装置００１は、データ収集部１００とデータ蓄積部１１０を備える。
データ収集部１００は、任意のデータを収集する手段であって、例えば温度、圧力、電圧、電流などの物理量だけでなく、これらを変換して生成される振幅やスペクトル強度、異常発生回数などの各種指標、または、位置情報や販売情報、経済指標などを収集してもよい。
データ収集部１００で収集されたデータは、複数の信号から構成される。
また、各信号は、複数の信号値で構成される。
各信号では、複数の信号値が例えば時系列に配列されている。

データ蓄積部１１０は、データ収集部１００によって収集されたデータを蓄積する。
データ蓄積部１１０は、類似度行列算出装置００２からのデータ提供の要求に従ってデータの提供を行うものであり、ＤＢＭＳ（ＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）などを備えることが望ましい。

クラスタリング装置００３は、クラスタリング部３００を備える。
クラスタリング部３００は、類似度行列算出装置００２によって算出された類似度行列を用いてクラスタリングを行う。
例えば、前記の階層的クラスタリング手法やスペクトラルクラスタリング手法などにより、クラスタリングを行う。

類似度行列算出装置００２は、特徴量導出部２００、特徴量記録部２１０、類似度算出対象指定部２２０、類似度算出順序決定部２３０、閾値決定部２４０、類似度算出部２５０を備える。

特徴量導出部２００は、データ蓄積部１１０に蓄積されたデータを用いて、信号ごとに特徴量を導出する。
特徴量は、信号の特徴を表す任意の指標である。
特徴量は、例えば信号の特徴である、平均値、分散などの統計量や、積算値、スペクトル強度などでだけでなく、信号源の特徴である、設備の種別や使用年数、設置箇所などを用いてもよい。
なお、以下では、特徴量をデータ特徴ともいう。

特徴量記録部２１０は、特徴量導出部２００で導出された特徴量を記録する。
図５に特徴量の記録例を示す。
特徴量記録部２１０は、少なくとも、信号を特定するための信号ＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）と、１つの特徴量を記録する。
特徴量は、特徴量導出部２００で導出された特徴量であって、数値またはラベルを表す文字列である。
また、特徴量はそれぞれ降順または昇順に整列して記録する。
なお、特徴量は、必ずしも全てを記録する必要は無く、該当する特徴量が存在しない場合や、特徴量導出部２００において特徴量が導出できなかった場合などにおいては、特徴量の欠損を示す記号を記録する。
この際、当該特徴量が欠損した信号を、類似度算出対象指定部２２０において、類似度算出対象とするか類似度算出対象外とするか判定できるように、欠損理由により異なる記号を付すことが好ましい。

類似度算出対象指定部２２０は、特徴量記録部２１０に記録された特徴に基づいて、類似度算出対象となる信号の組の一覧を算出する。
類似度算出対象指定部２２０においては、算出しようとする類似度に対応してあらかじめ定められた規則に従って、類似度算出対象の判定に用いる特徴量を選択し、各特徴量における類似度算出対象判定結果を算出した後、これらの結果を演算により組み合わせることで、類似度算出対象となる信号の組の一覧を算出する。
類似度算出対象指定部２２０は、各信号の特徴量に基づいて、類似度が高いと予想される信号の組を、類似度の算出対象に指定する。
類似度算出対象指定部２２０においては、類似度判定を、整列された１次元空間の特徴量に限定して行うことで、連続した至近のデータとの比較のみによって類似度の判定が可能となる。
これにより、２次元以上の空間における特徴量を用いた場合に生じる信号数の組み合わせによる計算時間の増大を抑制し、高速な類似度判定を可能とする効果を得る。

類似度算出順序決定部２３０は、類似度算出対象指定部２２０により指定された類似度算出対象となる信号の組における信号ごとの出現頻度に基づき、類似度算出順序を決定する。
類似度算出順序は、最も多く類似度算出対象となっている信号から優先的に類似度が算出されるように構成する。
このように類似度算出順序決定部２３０を構成することにより、類似度行列を算出する際に、上位の信号から順にまとめて並列処理することで、ディスク装置から読みだされた信号がメモリ上にキャッシュされる時間を最大化し、ディスクアクセス回数を低減することにより類似度行列の算出を高速化する効果を得る。

閾値決定部２４０は、類似度行列を一定密度の疎行列とするために、類似度算出部２５０で用いる閾値（類度度算出閾値という）を算出する。
類度度算出閾値の算出は、いくつかの信号の組において算出された類似度から全体の類似度の分布を推定することで行う。
類似度算出対象とする信号の抽出は、類似度算出対象指定部２２０において算出された類似度算出対象となる信号を対象とした無作為抽出、または、類似度算出順序決定部２３０において優先度が高いと判定された信号の組からの抽出によって行う。
このように閾値決定部２４０を構成することにより、類似度の分布を推定する際に、明らかに類似度が低いと想定される信号の組については類似度の計算をせずに、類似度が高いと想定される信号の組から抽出した信号の組に対してのみ類似度を計算するため、少ない計算回数で類似度の分布が推定可能となる効果を得る。

類似度算出部２５０は、類似度算出順序決定部２３０によって定められた類似度算出順序に従って信号間の類似度を算出する。
より具体的には、類似度算出部２５０は、類似度算出対象の信号を区分的に処理して区分ごとに類似度を算出する。
また、類似度算出部２５０は、類似度のレベルが、類似度の算出を打ち切る条件である打切り条件に合致するか否かを判断し、類似度のレベルが前記打切り条件に合致する場合に、当該信号の組に対する類似度の算出を打ち切る。
例えば、類似度算出部２５０は、類似度のレベルが閾値決定部２４０によって定められた閾値を明らかに下回ることを打切り条件とする。
つまり、類似度のレベルが閾値決定部２４０によって定められた閾値を明らかに下回る信号の組については、類似度算出処理を打ち切り、類似度０と見做す。
また、例えば、類似度算出部２５０は、類似度のレベルが継続して一定のレベルにあること（収束したこと）を打切り条件とする。
つまり、類度のレベルが一定レベルにとどまり、類似度が収束したと判定できる場合も同様に処理を打ち切り、収束した値を類似度と見做す。
このように類似度算出部２５０を構成することにより、時系列データなどの類似度算出対象となる信号が長い場合において、全てのデータを参照することなしに類似度算出を打ち切ることができるため、類似度算出を高速化する効果を得る。

図２は、実施の形態１に係る類似度行列算出装置００２の動作の概要を表すフローチャートである。

ステップＳ０１０は、特徴量を導出する処理である。
ステップＳ０１０において、特徴量導出部２００は、データ蓄積部１１０に蓄積されたデータを用いて、信号ごとに特徴量を導出する。
また、導出された特徴量は、信号ＩＤと関連付けてそれぞれ降順または昇順に整列した状態で特徴量記録部２１０に記録する。

ステップＳ０２０は、ステップＳ０１０において導出された特徴量を用いて、類似度算出対象となる信号の組を判定する処理である。
図３は、この処理における動作の詳細を示した図である。

ステップＳ２００において、類似度算出対象指定部２２０は、あらかじめ定められた規則に従って、特徴量記録部２１０から１つの特徴量を抽出する。

ステップＳ２１０において、類似度算出対象指定部２２０は、ステップＳ２００において抽出された特徴量を用いて類似度算出対象判定処理を行い、類似度算出対象となる信号の組の候補を抽出する。
類似度算出対象判定処理は、近傍Ｎ点を用いる手法、または、半径Ｎ内にある点を用いる手法が簡易である。
また、より厳密には、カーネル密度推定により変曲点を抽出する手法や、混合正規分布推定により近傍Ｎσを用いる手法などを用いることが望ましい（図６）。
また、類似度算出対象を制限する目的から、類似度算出対象とする信号の数に上限を設けてもよい。
また、類似度算出対象が過剰に抑制されることを避けるために類似度算出対象とする信号の数に下限を設けてもよい。

ステップＳ２２０において、類似度算出対象指定部２２０は、ステップＳ２１０において特徴量ごとに算出された類似度算出対象の候補の信号の組に対して、あらかじめ定められた規則に従って演算し、類似度算出対象となる信号の組の一覧を算出する。
例えば、特徴量１、特徴量２、特徴量３の３つの特徴量における類似度判定結果を元に、「特徴量１かつ特徴量２において類似度算出対象の候補として選定された信号の組、または、特徴量３において類似度算出対象の候補として選定された信号の組」を、最終的な類似度算出対象となる信号の組に決定して出力する。
あるいは、「２つ以上の特徴量において類似度算出対象の候補として選定された信号の組」を、最終的な類似度算出対象となる信号の組に決定して出力する。
なお、類似度算出対象となる信号の組の決定方法は、これらに限られない。

図２に戻り、ステップＳ０３０は、ステップＳ０２０において算出された類似度算出対象となる信号の組の一覧を用いて、類似度算出順序を決定する処理である。
ステップＳ０３０において、類似度算出順序決定部２３０は、ステップＳ０２０において算出された類似度算出対象となる信号の組の一覧から、信号ごとに出現回数を計数し、出現回数が最も多い信号Ａを優先度１として記録する。
つぎに、信号Ａとともに類似度算出対象となっている信号のうち、出現回数が最も多い信号の上位Ｎ−１個を上から順に優先度２からＮとして記録する。
同様にして、類似度算出対象となる信号の組の一覧から、優先度１からＮまでの信号を除いた残りの信号のうち、出現回数が最も多い信号Ｂを優先度Ｎ＋１として記録し、信号Ｂとともに類似度算出対象となっている信号のうち、出現回数が最も多い信号の上位Ｎ−１個を上から順に優先度Ｎ＋２から２Ｎとして記録する。
以下同様にして、類似度算出対象となっている信号の組がなくなるまで、優先度を算出して記録する。
この処理は、類似度行列の算出がクラスタリングを行うことを目的としていることに鑑みてなされるものである。
すなわち、類似度行列がクラスタを構成すると仮定すれば、信号Ａと類似度が高い信号同士もまた類似度が高いと期待される。
従って、このように優先度を構成することで、類似度算出対象となる信号の組が簡易的にクラスタリングされるため、並列度Ｎによって優先度の高い順に類似度算出処理を行った際に、信号データの再利用性が高まり、ディスクアクセス回数を低減する効果を得る。

また、前述の類似度算出順序の決定方法は、後述の区分的類似度算出処理（Ｓ０５０）を並列処理にて実施する場合に有用な順序を決定する方法である。
区分的類似度算出処理（Ｓ０５０）を並列処理にて実施しない場合は、例えば、以下の方法により算出順序を決定してもよい。
（１）信号の組の一覧から、信号ごとに出現回数を計数し、出現回数が最も多い信号を優先度１として記録する。
（２）優先度１の信号と組になっている信号の出現回数を１つ減らした後、優先度１の信号を除いた信号の中で出現回数が最も多い信号を優先度２として記録する。
（３）優先度２の信号と組になっている信号の出現回数を１つ減らした後、優先度１、２の信号を除いた信号の中で出現回数が最も多い信号を優先度３として記録する。
（４）以降、同様にして、優先度（ｎ−１）と組になっている信号の出現回数を１つ減らした後、優先度１〜（ｎ−１）の信号を除いた信号の中で出現回数が最も多い信号を優先度ｎとして記録する。

ステップＳ０４０は、ステップＳ０２０において算出された類似度算出対象となる信号の組の一覧を用いて、ステップＳ０５０で用いる類似度算出閾値を算出する処理である。
ステップＳ０４０において、閾値決定部２４０は、ステップＳ０２０において算出された類似度算出対象となる信号の組の一覧から、無作為にＪ組（Ｊ≧１）を抽出し、類似度を算出する。
算出した類似度から、カーネル密度推定手法などにより類似度の累積分布関数を推定し、あらかじめ定めた疎行列化後の非零要素数の割合を指定する疎行列化密度パラメータと累積分布関数の交点から類似度算出閾値を決定する。

図７は、ステップＳ０４０の処理を模式的に示したものである。
図７のグラフは、類似度の累積分布関数の推定結果を模したものである。
グラフのうち実線で表わされたプロットが、類似度算出対象となる信号の組から無作為抽出により推定された累積分布関数を表しており、これに続く破線で表わされたプロットは、類似度算出対象外となる要素数の割合から推定された類似度が小さい領域における累積分布関数を表している。
このような累積分布関数を用いることで、例えば類似度行列の非零要素の割合を１０％としたい場合には、累積分布が０．９以下となる類似度を０とすればよく、従って累積分布関数において疎行列化密度パラメータｐ＝０．９とし、累積分布がｐとなる類似度ｑを類似度算出閾値として採用することで、ｑ以下の類似度を０とした際の類似度行列の非零要素の割合をおよそ１０％とすることができる。
なお、類似度算出閾値を導入した意図から明らかであるが、類似度算出閾値は、類似度算出対象となる信号の組から推定された累積分布関数上（図７実線部）に位置する。
このため、この領域に限定して信号の組を抽出することで、全ての信号の組から抽出を行った場合と比べて、より少ないサンプル数でより精度の良い類似度算出閾値を決定可能とする効果を得る。

さらに処理速度を高めるために、無作為抽出の代りに、ステップＳ０３０において算出した類似度算出順序を用いてもよい。
すなわち、類似度算出順序において優先度が高い信号の上位Ｍ（Ｍ≧１）個の信号を選択し、選択したＭ個の信号について類似度算出対象となっている信号の組の類似度を算出し、これを持って前記の無作為抽出に代える。
これにより、類似度算出対象の信号が大きい場合における、キャッシュ効率を向上し、ディスクアクセス回数を低減することにより類似度算出処理を高速化する効果を得る。
また、類似度算出処理には、類似度算出部２５０を閾値無しで用いることで、さらに類似度算出処理を高速化する効果を得る。

ステップＳ０５０は、ステップＳ０２０において算出された類似度算出対象となる信号の組に対して、ステップＳ０３０において算出された類似度算出順序に従って、ステップＳ０４０において算出された類似度算出閾値による打ち切りを伴う類似度算出処理により、類似度行列を算出する処理である。

図４は、この処理における動作の詳細を示した図である。

ステップＳ５００において、類似度算出部２５０は、ステップＳ０３０において算出された類似度算出順序に従って、データ蓄積部１１０から優先度が最も高い信号Ａを抽出し、信号Ａを任意数の信号値ごとにＫ個の区間（部分集合）に区分する。
並列処理を行う場合は、優先度が最も高い信号上位Ｎ個を抽出し、同じくＫ個の区間に区分する。
ここで、区間とは信号から抽出されたサンプル（信号値）の集合を意味しており、必ずしも連続的または排他的な区間に限らない。
例えば、信号値が時系列に配列されている信号の場合、時刻０から１００までの信号値を区間１として、時刻５０から１５０までの信号値を区間２とするような重複を持つ区間であってもよい。
また、同じく時系列データにおいて、毎時刻の０分における信号値を区間１として、毎時刻の１０分における信号値を区間２とするような不連続な区間であってもよい。

ステップＳ５１０において、類似度算出部２５０は、ステップＳ０３０において算出された類似度算出順序に従って、データ蓄積部１１０から優先度が最も高い順番に信号Ｂを抽出し、信号Ａと同様にＫ個の区間に区分する。
信号Ｂを抽出する際には、ステップＳ０２０において算出された類似度算出対象となる信号の組を参照し、信号Ａに対して類似度算出対象とならない信号については処理を行わずに、次に優先度が高い信号に対して処理を継続する。
また、並列処理を行う場合は、ステップＳ５００において抽出したＮ個の信号のいずれかに対して類似度算出対象となっている信号について、処理を行う。
ただし、ステップＳ５２０以降の類似度算出処理は、類似度算出対象となっている信号の組に対してのみ行うことが好ましい。

ステップＳ５２０において、類似度算出部２５０は、前記信号Ａと信号ＢのＫ区間から、対応する１区間を無作為に抽出し、この区間に対して類似度を算出する。
なお、２回目以降にこの処理を行う場合には、既に類似度を算出済みの区間は無作為抽出の対象から除く。
また、類似度は、差分処理により、抽出済みの全区間に対して算出することが好ましいが、各区間における類似度の平均値や期待値などの統計量で代用してもよい。

ステップＳ５２０、および、以降の判定処理を繰り返して、全ての区間について類似度の算出が完了した場合には、類似度算出部２５０は、類似度算出処理を終了し、閾値判定処理を行う。
また、全ての区間について類似度の算出が完了していない場合であっても、ステップＳ５２０において算出された類似度が収束したと判断された場合は、類似度算出部２５０は、類似度算出処理を終了し、閾値判定処理を行う。
さらに、いずれの類似度算出処理の終了条件を満たしていない場合であっても、ステップＳ５２０において算出された類似度が、ステップＳ０４０において算出された類似度算出閾値を明らかに下回ると判断された場合は、類似度算出部２５０は、類似度算出処理を終了する。
収束の判定は、例えばステップＳ５２０において算出された類似度と前回のステップＳ５２０において算出された類似度との差が一定以下である場合を収束と判定する、あるいは、ステップＳ５２０において算出された過去Ｌ回の類似度の分散が一定以下である場合を収束と判定するなどの方法による（図８（ａ））。
また、類似度算出閾値を明らかに下回る判定は、ステップＳ５２０において算出された類似度が閾値を一定以上下回った場合を明らかに下回ったと判定する、あるいは、ステップＳ５２０において算出された過去Ｌ回の類似度が閾値を一定以上下回った回数が一定回数以上となった場合を明らかに下回ったと判定するなどの方法による（図８（ｂ））。
また、これらの判定手法の組み合わせによる。
なお、図８のグラフは、１組の信号の組に対する類似度の算出例を示す。
つまり、図８のグラフの各点は、１つの区間に対して算出された類似度を表す。

上記類似度算出処理を終了し、ステップＳ５２０により算出された類似度が、ステップＳ０４０において算出された類似度算出閾値を上回った場合は、類似度算出部２５０は、ステップＳ５３０により、当該の信号の組に対してステップＳ５２０により算出された類似度を記録する。
それ以外の場合には、類似度算出部２５０は、ステップＳ５４０により、当該の信号の組に対して類似度０を記録する。
なお、類似度行列を疎行列として記録する場合には、類似度０を記録することは、類似度を記録しないことと同じである。

以上の処理を全ての信号について実施することで、類似度行列を算出する。
最後に、算出された類似度行列を、クラスタリング部３００に渡し、クラスタリングを行う。

このように、本実施の形態では、類似度算出対象指定部により、多数の信号を分析対象とした際に必要となる大規模な類似度行列の算出において、類似度算出対象を削減することで高速に類似度行列を算出可能とする効果を得る。
つまり、信号の特徴量に基づき、類似度の算出対象を、類似度が高いと予想される信号の組に限定することができ、効果的に類似度行列の算出を高速化することができる。
また、類似度算出部により、類似度算出対象となる信号が長い場合において、全てのデータを参照することなしに類似度算出を打ち切ることで高速に類似度を算出可能とする効果を得る。
さらに、類似度算出順序決定部により、類似度算出部における類似度算出時のディスクアクセス回数を削減することでさらに高速に類似度行列を算出可能とする効果を得る。
さらに、類似度算出順序決定部により、類似度算出部において用いる類似度算出閾値を、より少ないサンプル数でより精度の良く決定可能とする効果を得る。
以上の構成により、大規模な類似度行列の算出において、高速に類似度行列を算出可能とする効果を得る。

実施の形態２．
本実施の形態では、類似度行列算出装置００２を設備管理や保守向けの分析に用いる場合について説明する。
以下では、主に実施の形態１との差分について述べている。
特に言及がないものは、実施の形態１に準じるものとする。

設備管理や保守における分析の例として、正常時と異なる挙動に注目した分析が挙げられる。
例えば、通常は連係して動作するために相関が高い機器が、故障により連係を失い相関が低下するといった現象を抽出するといった応用がある。
このような場合に、あらかじめ通常時における運転情報からクラスタリングにより相関が高い機器を抽出し、クラスタリングされた機器間の相関関係を監視することで故障の検知を行う。
しかし、発電プラントなどの大規模な設備においては、機器の動作を計測するセンサ数は数千から数万個以上あり、これらのセンサ信号からスペクトル分解などにより展開される情報も考慮するとクラスタリングの対象となる信号数は膨大なものとなる。
本実施の形態は、このような課題に対して高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とするものである。

本実施の形態においては、データ収集部１００は、主に設備あるいは設備周辺の環境に設置されたセンサ類であり、通信装置を介してデータ蓄積部１１０に収集される。
蓄積されるデータは、例えば温度、圧力、電圧、電流などの直接計測される物理量、および、これらを変換して生成される振幅やスペクトル強度である。
また、設備管理情報として、設備の種別や使用年数、設置箇所などが記録されていることが一般的である。

本実施の形態においては、類似度として相関係数を用いる場合について述べる。
相関係数は、信号間の内積により算出されることから、特徴量導出部２００において用いる特徴量としては、スペクトル強度およびスペクトルの位相が好ましい。
例えば、正規化されたスペクトル強度および位相を特徴量導出部２００において算出し、Ｎ個の代表的な周波数について、特徴量記録部２１０に記録する。

類似度算出対象指定部２２０においては、上記特徴量を用いて、例えば、同じ周波数に対する強度と位相がともに±Ｘの範囲内にある信号を仮の類似度算出対象とし、Ｎ個の半分以上の周波数について仮の類似度算出対象となっている信号の組を類似度算出対象と判定する。
より簡易には、スペクトル強度のみを用いてもよい。
また、センサ種別や設備設置箇所などの情報により、明らかに相関が無いと判定される信号の組については、これらを特徴量として類似度算出対象判定を行い、前記スペクトル情報により類似度算出対象と判定された信号の組との間でＡＮＤ演算を行うことで、明らかに相関が無いと判定される信号の組を類似度算出対象から除く。

類似度算出部２５０においては、設備の運転状態によって時刻ごとに相関係数が変化することを考慮して、連続的かつ等間隔に区間を区切ることが好ましい。
例えば、時刻１から１００までを区間１として、時刻１０１から２００までを区間２とするといった具合である。
計算量に余裕がある場合は、区間の重複があってもよい。
また、類似度の算出においては、区間ごとの相関係数の平均値を用いることが好ましい。
これにより、長期間における相関は正しく反映されにくくなるが、短期間における相関係数の傾向を表す指標としては良い近似となる。
なお、ここで短期間とは設備の運転状態の変化速度に相当する期間であり、例えば数時間程度である。一方、長期間とはこれに比べて十分に長い期間であり、例えば１月から１年以上を想定している。

以上のような構成により、大規模な信号数を持つ設備データに対する設備管理や保守向けの分析において、高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とする効果を得る。

実施の形態３．
本実施の形態では、類似度行列算出装置００２を電力需要の分析に用いる場合について説明する。
以下では、主に実施の形態１との差分について述べている。
特に言及がないものは、実施の形態１に準じるものとする。

電力需要の分析の例として、需要家を１日の電力消費パターンによって分類する負荷曲線分析（ｌｏａｄｓｕｒｖｅｙ）が挙げられる。
例えば、独身世帯では朝晩に電力消費が大きく昼から夕方にかけては電力消費が少ないが、核家族世帯では昼から夕方にかけて電力消費が伸びるといった様に、需要家ごとに固有の傾向がある。
負荷曲線分析は、需要家の電力消費パターンをクラスタリングすることで、このような需要家ごとに固有の傾向を抽出するとともに、電力消費パターンの変遷を把握することで、電力会社における経営計画や設備計画に利用するといった応用がある。

近年では、スマートメータの導入が進められており、多数の需要家における電力消費パターンを細かい時間間隔で、かつ、リアルタイムに近い頻度で収集可能となる見込みである。
電力会社における需要家数は、数百万件から数千万件程度であり、負荷曲線分析において扱う信号数も同様の規模となる。
本実施の形態は、このような課題に対して高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とするものである。

本実施の形態においては、データ収集部１００は、主に電力計であり、通信装置を介してデータ蓄積部１１０に収集される。
蓄積されるデータは、主に電力消費量である。
また、顧客情報として、契約種別や居住地域などが記録されていることが一般的である。

本実施の形態においては、類似度としてＥｕｃｌｉｄ距離を用いる場合について述べる。
Ｅｕｃｌｉｄ距離は、信号間の差の二乗により算出されることから、特徴量導出部２００において用いる特徴量としては、平均や分散が好ましい。
また、電力消費パターンに固有の特徴量として、昼夜の消費電力の比や、昼間や夕方、深夜などの特徴的な時間帯における消費電力を用いてもよい。
なお、Ｅｕｃｌｉｄ距離においては０に近いほど類似度が高いことを意味するため、０が最も類似度が小さくなるように、例えば図９に示した関係などを用いて変換したものを用いる。

類似度算出対象指定部２２０においては、上記特徴量を用いて、例えば、全ての特徴量において±Ｘ％の範囲内にある信号の組を類似度算出対象と判定する。
また、契約種別や居住地域などの情報により、例えば住宅用の低圧契約と工場用の高圧契約など、明らかに相関が無いと判定される信号の組については、実施の形態２と同様にして類似度算出対象から除く。

類似度算出部２５０においては、電力需要パターンの特徴を考慮して、人間の生活パターンに合わせた区間によって区切ることが好ましい。例えば、１日や１週間などの単位で区間を区切ることが好ましい。
Ｅｕｃｌｉｄ距離においては、Ｅｕｃｌｉｄ距離の二乗を保持することで容易に差分処理による類似度算出が可能である。
なお、類似度算出部２５０における区分とは異なるが、電力消費パターンは曜日毎に異なることが知られているので、データ蓄積部１１０からデータを取得する際には、例えば平日と休日に分けてデータを取得し、それぞれに対して類似度行列を算出することが好ましい。

以上のような構成により、大規模な需要家数に対する、電力需要の分析において、高速に類似度行列の算出を可能とし、クラスタリングによる分析を可能とする効果を得る。

最後に、実施の形態１〜３に示した類似度行列算出装置００２のハードウェア構成例を図１０を参照して説明する。
類似度行列算出装置００２はコンピュータであり、類似度行列算出装置００２の各要素をプログラムで実現することができる。
類似度行列算出装置００２のハードウェア構成としては、バスに、演算装置９０１、外部記憶装置９０２、主記憶装置９０３、通信装置９０４、入出力装置９０５が接続されている。

演算装置９０１は、プログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。
外部記憶装置９０２は、例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やフラッシュメモリ、ハードディスク装置である。
主記憶装置９０３は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。
特徴量記録部２１０は、例えば、主記憶装置９０３である。
通信装置９０４は、例えばＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）である。
入出力装置９０５は、例えばマウス、キーボード、ディスプレイ装置等である。

プログラムは、通常は外部記憶装置９０２に記憶されており、主記憶装置９０３にロードされた状態で、順次演算装置９０１に読み込まれ、実行される。
プログラムは、図１に示す「〜部」（但し、特徴量記録部２１０を除く、以下も同様）として説明している機能を実現するプログラムである。
更に、外部記憶装置９０２にはオペレーティングシステム（ＯＳ）も記憶されており、ＯＳの少なくとも一部が主記憶装置９０３にロードされ、演算装置９０１はＯＳを実行しながら、図１に示す「〜部」の機能を実現するプログラムを実行する。
また、実施の形態１〜３の説明において、「〜の判断」、「〜の判定」、「〜の指定」、「〜の決定」「〜の抽出」、「〜の算出」、「〜の計算」、「〜の導出」、「〜の選定」、「〜の選択」、「〜の推定」、「〜の生成」、「〜の入力」、「〜の出力」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置９０３にファイルとして記憶されている。

なお、図１０の構成は、あくまでも類似度行列算出装置００２のハードウェア構成の一例を示すものであり、類似度行列算出装置００２のハードウェア構成は図１０に記載の構成に限らず、他の構成であってもよい。

また、実施の形態１〜３に示す手順により、本発明に係るデータ処理方法を実現可能である。

００１データ蓄積装置、００２類似度行列算出装置、００３クラスタリング装置、１００データ収集部、１１０データ蓄積部、２００特徴量導出部、２１０特徴量記録部、２２０類似度算出対象指定部、２３０類似度算出順序決定部、２４０閾値決定部、２５０類似度算出部、３００クラスタリング部。

Claims

それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、前記類似度のレベルが継続して一定のレベルにある場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部とを有することを特徴とするデータ処理装置。
それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を複数組指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが閾値を下回る場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
前記類似度算出対象指定部により指定された複数組の信号の組に対して、無作為抽出により前記複数組の信号の組での類似度の累積分布を推定し、推定結果に基づき、前記閾値を決定する閾値決定部とを有することを特徴とするデータ処理装置。
それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を複数組指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが閾値を下回る場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
前記類似度算出対象指定部により指定された複数組の信号の組における信号ごとの出現頻度に基づき、前記複数組の信号の組に対する類似度の算出順序を決定する類似度算出順序決定部と、
前記複数組の信号の組のうち前記類似度算出順序決定部により決定された算出順序に従い任意数の信号の組を選択し、選択した信号の組での類似度の累積分布を推定し、推定結果に基づき、前記閾値を決定する閾値決定部とを有することを特徴とするデータ処理装置。
それぞれが複数の信号値で構成される複数の信号に対して、信号ごとに、信号の特徴を表す特徴量を導出する特徴量導出部と、
前記特徴量導出部により導出された各信号の特徴量に基づき、類似度の算出対象とする信号の組を指定する類似度算出対象指定部と、
前記類似度算出対象指定部により指定された信号の組に含まれる各信号を任意数の信号値で構成される部分集合に区分し、部分集合の単位で信号間の類似度を算出するとともに、類似度のレベルが類似度の算出を打ち切る条件である打切り条件に合致するか否かを判断し、類似度のレベルが前記打切り条件に合致する場合に、当該信号の組に対する類似度の算出を打ち切る類似度算出部と、
前記類似度算出対象指定部により指定された複数組の信号の組における信号ごとの出現頻度に基づき、前記複数組の信号の組に対する類似度の算出順序を決定する類似度算出順序決定部を有し、
前記類似度算出部は、
前記類似度算出順序決定部により決定された算出順序で、前記複数組の信号の組に対して類似度を算出することを特徴とするデータ処理装置。
前記特徴量導出部は、
信号ごとに複数種の特徴量を導出し、
前記類似度算出対象指定部は、
特徴量の種類ごとに、各信号の特徴量に基づき、類似度の算出対象とする信号の組の候補を選定し、
選定した信号の組の候補の中から、類似度の算出対象とする信号の組を指定することを特徴とする請求項１〜４のいずれかに記載のデータ処理装置。