JP5075009B2 - 類似度分析評価システム - Google Patents

類似度分析評価システム Download PDF

Info

Publication number
JP5075009B2
JP5075009B2 JP2008129775A JP2008129775A JP5075009B2 JP 5075009 B2 JP5075009 B2 JP 5075009B2 JP 2008129775 A JP2008129775 A JP 2008129775A JP 2008129775 A JP2008129775 A JP 2008129775A JP 5075009 B2 JP5075009 B2 JP 5075009B2
Authority
JP
Japan
Prior art keywords
clustering
evaluation
evaluation system
feature
similarity analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008129775A
Other languages
English (en)
Other versions
JP2009277136A (ja
Inventor
茂 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008129775A priority Critical patent/JP5075009B2/ja
Publication of JP2009277136A publication Critical patent/JP2009277136A/ja
Application granted granted Critical
Publication of JP5075009B2 publication Critical patent/JP5075009B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、例えば電力使用量の時間毎時系列データなどの大量の時系列データについて、一定期間のパターンを分類し、類似度を分析する類似度分析評価システムに関するものである。
電力需要分析のために、電力使用量の時間毎時系列データなどの大量の時系列データについて、一定期間のパターンを分類し、既存顧客属性との適合性を評価したり、電力使用量の時間毎使用量が測定されていない顧客に対し、属性から時間毎使用量を推定支援する必要性が高まっている。
電力負荷曲線(ロードカーブ)情報は、高圧、大口の需要家を中心に需要家毎に収集されており、電力設備計画に利用されてきた。従来は、既存の属性である業務区分毎や契約種別毎に分類することや、分類区分毎の平均ロードカーブを計算していた。
これに対し、今後は電力需要の多様化に対応するため、電力負荷曲線の正しい把握を行い、電力契約メニュー開発に繋げる必要がある。
従来、電力需要分析については、各時間帯の顧客毎に電力負荷曲線に着目した分類方法として、電力負荷曲線に対する特徴量を各負荷曲線毎にフーリエ変換を施し、周波数をもとにクラスタリング計算を行って分類する方法や、電力負荷曲線を正規化し、正規化された電力負荷曲線間の距離をもとにクラスタリング計算処理を行い、分類する方法があった。(非特許文献1、2)
特許文献1の「電力ロードカーブの分析方法およびシステム」では、電力負荷曲線からクラスタリングする処理手段としてロードカーブをピーク電力量で正規化し、正規化されたロードカーブに対し、ロードカーブ間の距離をユークリッド的距離として距離計算を行っている。
特開2002−169613号公報(第4〜7頁、図1) 新井康平著、「ウェーブレット解析の基礎理論」、森北出版、2000年11月。 新誠一、中野和司監修、田原鉄也編集幹事、「ウェーブレット解析の産業応用」、朝倉書店、2005年9月28日。
しかしながら、特許文献1の方法では、ロードカーブの距離の差の絶対値は計算されるが、時間や形状の特徴が反映されないという問題が発生する。
また、時系列データの集合への分類方法として、従来からフーリエ変換を用いた手法が一般に採用されており、フーリエ係数をもとにした特徴量計算が行われてきた。
また、非特許文献1、2のように、フーリエ変換を用いた手法は、時刻に関する情報を得ることができず、信号データの特徴部分を上手く抽出できない場合があるという問題があった。
この発明は、上述のような課題を解決するためになされたものであり、例えば電力使用量の時間毎時系列データなどの大量の時系列データについて、時系列データの形状に着目した特徴量を抽出し、抽出した特徴量をもとに任意に分類するとともに、時系列データの属性と分類結果による適合度評価を実現する類似度分析評価システムを得ることを目的としている。
この発明に係わる類似度分析評価システムにおいては、属性をもつ時系列データから、離散ウェーブレット変換により特徴量を抽出する特徴量抽出手段、この特徴量抽出手段により抽出された特徴量により、複数の時系列データを複数の集合に分類するに当って、K−Means法を用いる非階層的クラスタ手法と、Ward法を用いる階層的クラスタ手法のいずれかを選択して、この選択された手法により分類を行うクラスタリング手段、及びこのクラスタリング手段により分類された結果を時系列データがもつ属性をもとにして評価するために、分類された集合を一方の軸とし、属性を他方の軸とする評価マトリクスを生成する評価マトリクス生成手段を備えたものである。
この発明は、以上説明したように、属性をもつ時系列データから、離散ウェーブレット変換により特徴量を抽出する特徴量抽出手段、この特徴量抽出手段により抽出された特徴量により、複数の時系列データを複数の集合に分類するに当って、K−Means法を用いる非階層的クラスタ手法と、Ward法を用いる階層的クラスタ手法のいずれかを選択して、この選択された手法により分類を行うクラスタリング手段、及びこのクラスタリング手段により分類された結果を時系列データがもつ属性をもとにして評価するために、分類された集合を一方の軸とし、属性を他方の軸とする評価マトリクスを生成する評価マトリクス生成手段を備えたので、時系列データの属性と、特徴量に基づくクラスタリング結果との関係を評価することができる。
実施の形態1.
図1は、この発明の実施の形態1による類似度分析評価システムを示す全体構成図である。
図1において、個別の需要家1(S1〜Sn)は、負荷情報を発信する。サーバ2は、電力事業者に配置され、需要家1により発信された負荷情報を処理し、負荷曲線を分類し、評価マトリクスを生成する。このサーバ2は、次のように、3〜9により構成されている。
時系列データ3は、需要家1より収集した負荷情報を蓄積している。検索・集計エンジン4は、時系列データ3から、該当データ抽出処理により、抽出条件に適合したデータを高速に抽出し、該当時系列データ5として保存する。特徴量抽出手段6は、離散ウェーブレット変換により該当時系列データ5を元にして特徴量を抽出する。クラスタリング手段7は、特徴量から類似度特性をもつ複数のデータ集合に分類する。すなわち、負荷分布の分類を行う。
評価マトリクス生成手段8は、評価マトリクスを生成して、クラスタリングされた結果と時系列データが保持している属性データをもとに評価する。表示処理部9(表示手段)は、クラスタリング結果及び評価マトリクスの表示などを行う。
上述の4〜8の処理のための設定は、サーバ2に接続された端末から行う。端末の画面10には、いろいろな設定の画面表示や、表示処理部9の処理結果の表示が行われる。
抽出条件設定11は、検索・集計エンジン4で該当データの抽出に用いる抽出条件を設定する。特徴量重み付け設定12(特徴量重付け手段)は、特徴量抽出手段6により抽出される特徴量の各レベルの重み付けを設定する。
クラスタリング方法とクラスタ数設定13(クラスタ数設定手段)は、クラスタリング手段7でのクラスタリング処理を行うためのクラスタリング方法とクラスタ数の設定を行う。クラスタリング方法としては、クラスタ数を指定し、指定クラスタに対応する初期値を適当に割当てた後、さらに良い結果となるようにクラスタリングを行う非階層的クラスタ手法と、随時クラスタを結合する階層的クラスタ手法とがある。
評価項目選択14は、評価マトリクス生成手段8で用いられるように、各負荷曲線の属性データのうち評価区分となる項目を選択する。ここで、評価項目としては、契約方法、電圧、業種などである。
なお、特徴量抽出手段6とクラスタリング手段7と評価マトリクス生成手段8と表示処理部9は、サーバ2に搭載されているが、これらをサーバ2に接続された端末上に搭載してもよい。
図2は、この発明の実施の形態1による類似度分析評価システムのウェーブレット変換による負荷曲線の特徴抽出とウェーブレット変換係数を示す図である。
図2において、24時間の電力使用量の変化を示す時系列データであるオリジナルデータを元にして、特徴量として、各レベルのウェーブレット成分W1、W2、W3と、スケーリング関数成分V3が得られる。
図3は、この発明の実施の形態1による類似度分析評価システムの離散ウェーブレット変換により特徴量を抽出する過程を説明する図である。
図4は、この発明の実施の形態1による類似度分析評価システムのクラスタリングされた結果と属性による評価マトリックスを示す図である。
図4において、1111などの契約種別の属性情報と、クラスタリングされた結果との相関を示している。表中の数値は需要家の件数である。
図5は、この発明の実施の形態1による類似度分析評価システムのクラスタリングされた結果とコード属性と数値データの組合わせによる評価マトリックスを示す図である。
図5において、コード属性(契約種別)と数値データの組合わせと、クラスタリングされた結果との相関を示している。すなわち、日量合計電力量という数値データを評価区分に用いている。
図6は、この発明の実施の形態1による類似度分析評価システムのハールウェーブレットを示す図である。
図6において、ハールウェーブレットを示す後述する(1)式のグラフを示している。
図7は、この発明の実施の形態1による類似度分析評価システムのハールスケーリング関数を示す図である。
図7において、ハールスケーリング関数を示す後述する(2)式のグラフを示している。
図8は、この発明の実施の形態1による類似度分析評価システムのクラスタリング処理(非階層的)を示すフローチャートである。
図9は、この発明の実施の形態1による類似度分析評価システムのクラスタリング処理(階層的)を示すフローチャートである。
図10は、この発明の実施の形態1による類似度分析評価システムの新たな負荷曲線の既存クラスタへの分類処理を示すフローチャートである。
図11は、この発明の実施の形態1による類似度分析評価システムの階層的クラスタリングの結果表現としての樹形図(デンドログラム)である。
図11において、対象間の類似度の度合いを表わす指標である非類似度なる距離を横軸にとり、対象を縦軸に等間隔にとった樹形図が示されている。図11では、3つのクラスタ(1)(2)(3)に分類されている。
図12は、この発明の実施の形態1による類似度分析評価システムの数値データを評価区分に分割するための境界値の求め方を示す図である。
図12において、数値データを評価区分とする場合の境界値の求め方を示し、クラスタの平均値を計算し、平均値の昇順でクラスタをソートし、平均値の大きい二つのクラスタを選択し、この二つのクラスタの中央値の平均値を境界値とする。ここでは、平均値の大きい二つのクラスタであるクラスタ1の中央値21とクラスタ2の中央値22の平均値をとり、境界値23としている。
図13は、この発明の実施の形態1による類似度分析評価システムの属性キーの組合せによる評価マトリックスを示す図である。
図13において、属性(キー1、キー2、キー3)の組合せについて、クラスタ分類を行っている。属性は、既存の評価区分の例えば業績別と契約別などの組合せである。
図14は、この発明の実施の形態1による類似度分析評価システムのウェーブレット変換係数の各レベルへの重みを与える画面例を示す図である。
図14において、クラスタリング手法として、非階層的クラスタリングとしてのK−Means法及び階層的クラスタリングとしての凝集法のいずれかの選択と、特徴量の各レベルに対する重み付けを行うための画面である。グループを示すレベルを選択して、0から1の重み付けをスライダーを用いて行う。
図15は、この発明の実施の形態1による類似度分析評価システムの適合度の利用方法を説明する図である。
図15(a)は、病院、工場、学校、官庁などの産業区分とクラスタリング結果とによる評価マトリクスを示している。図15(b)は、自家発補給電力、高圧電力、業務用電力などの契約区分とクラスタリング結果とによる評価マトリクスを示している。
図16は、この発明の実施の形態1による類似度分析評価システムのクラスタリング結果から区分を変更する例を説明する図である。
図16は、クラスタリング結果を示し、クラスタ2とクラスタ3のそれぞれが1個の区分になるように、化学の区分を2つに細分化した方がよいことを示している。
次に、動作について説明する。
図1で、発信元である個別の需要家1(S1〜Sn)の負荷情報が、電力事業者のサーバ2に収集され、時系列データ3として蓄積される。蓄積された負荷情報は、端末の画面10より抽出条件設定11で抽出条件を設定することにより、検索・集計エンジン4を利用して、抽出条件に一致した需要家の負荷情報を検索し、負荷曲線および属性情報を該当時系列データ5として保存する。
この結果を、端末の画面10より、特徴量重付け設定12で、特徴量の計算方式およびウェーブレット変換における特徴量の重み付けを与えることにより、特徴量抽出手段6により、指定されたパラメータに従い、特徴量の計算処理がなされる。
次に、計算された特徴量に対し、端末の画面10より、クラスタリング方法とクラスタ数設定13により、クラスタリング方法の選択とクラスタ数を与えることで、クラスタリング手段7は、各々の負荷曲線に対し、クラスタ番号を付す。ここで、特徴量の計算にて、重み付けの与え方により、形状重視したクラスタリングまたは大きさを重視したクラスタリングの結果を得る。
なお、ウェーブレット成分に大きい重み係数を与えると形状を重視することになり、逆にスケーリング関数成分に大きい重み係数を与えると大きさを重視することになる。
次いで、端末の画面10の評価項目選択14にて、各負荷曲線の属性データのうち評価区分として用いる項目を選択する。このように、あらかじめ負荷曲線と属性情報を結合しておくことで、評価マトリクス生成手段8により、多くの需要家情報の属性とクラスタリングされた負荷曲線の分類の確かさの評価が行えるようになる。
表示処理部9は、クラスタリング結果、評価マトリックス、クラスタリングされたクラスタ毎のグラフと平均グラフ、クラスタ毎の評価区分の割合のグラフと評価区分に対するクラスタ毎の割合グラフを表示し、これにより視覚的に状況を把握可能とする。
以下、特徴量抽出手段6と、クラスタリング手段7と、評価マトリクス生成手段8の処理について、さらに詳しく説明する。
まず、特徴量抽出手段6について説明する。
特徴量抽出手段6では、需要家の負荷曲線より特徴量を求める手段として、ウェーブレット変換を利用する。ここで計算されるウェーブレット変換の特徴量は、nレベル(1〜n)のウェーブレット成分とスケーリング関数成分より構成されている。ここで各ウェーブレット成分およびスケーリング関数成分のレベル毎に何も重み付けしないものから、各レベルのウェーブレット成分内の絶対値の最大およびスケーリング関数成分の最大値をもとに正規化した特徴量までの重みを選択することで、形状に注目した特徴量が算出できるようにしている。
図2は、各レベルのウェーブレット成分およびスケーリング関数成分の最大をもとに正規化した特徴量を表わしている。
特徴量抽出手段6の負荷曲線に対するウェーブレット変換としては、離散ウェーブレットであり、(1)式のハールウェーブレットおよび(2)式のハールスケーリング関数をウェーブレット基底とする。
(1)式と(2)式において、添え字kはウェーブレットの基底のレベルを意味し、添え字lは時間軸での移動量を意味する。図6に(1)式におけるΨ(t)のグラフを示し、図7に(2)式におけるφ(t)のグラフを示す。
ウェーブレット成分(W)とスケーリング関数成分(V)が特徴量として計算される。ハールウェーブレットによる成分W、ハールスケーリング関数による成分Vは、(3)式に示すように分解される。
(3)式は、ハールウェーブレット関数が直交関数であることを利用して、レベル数を増加させて展開していく過程を示している。最初に、レベル1のウェーブレット成分W1とスケーリング関数成分V1に分解する。V1を、レベル2のW2とV2に分解する。こうして、1ないしnのレベルのウェーブレット成分W1〜Wnとレベルnのスケーリング関数成分Vnに分解される。ここで、レベル数のnは、分析対象のデータの項目数Nから決まる。N=2×Mというように、項目数Nを2のべき乗(2)と奇数(M)の積に分解した際に、べき数nがレベル数になる。
なお、レベル数はべき数より小さくしてもよい。
図2に示した特徴量を抽出する過程を、図3を用いて説明する。図3は、離散ウェーブレット変換により特徴量を抽出する過程を説明する図である。図3(a)に、1時間ごとの電力使用量についての24時間分のデータであるオリジナルデータを示す。図2に示したものと同じグラフである。図3(b)に、ハールウェーブレット関数による1次の分解結果を示す。ハールウェーブレット関数による離散ウェーブレット変換では、2個のデータのペアごとにその差をウェーブレット成分とし、その平均をスケーリング関数成分とする。つまり、ウェーブレット成分がその次数での変動分を表現し、スケーリング関数成分がより次数が高い(より長周期の)変動成分を表現する。
図3では、オリジナルデータとの対応が取りやすいように、ウェーブレット成分は、差の半分をデータの組における前の方で符号を反転させて、後の方ではそのまま表示している。1次の離散ウェーブレット変換では、時間軸での移動単位量は2時間であり、12個の成分がある。データ成分が変わるごとに目盛り線を引き、データ成分の添え字を目盛り線の間に示す。1次のスケーリング関数成分を、離散ウェーブレット変換により分解したものが図3(c)である。2次では時間軸の移動量が4時間単位になり、6個の成分がある。さらに3次のウェーブレット変換結果が図3(d)である。3次では時間軸の移動量が8時間単位になり、3個の成分がある。各次数のウェーブレット成分とn次のスケーリング関数成分を、その最大値の絶対値が1になるように正規化すると、図2が得られる。
W1からWnとVnの要素を1次元のベクトルとして表現したものを、特徴量fk=(W1,1,W1,2,・・・,W1,M*(2^(n−1)),W2,1,W2,2,・・・,W2,M*(2^(n−2)),・・・,Wn,1,Wn,2,・・・Wn,M,Vn,1,Vn,2,・・・,Vn,M)と定義する。ここに添え字に用いている「2^(n―1)」は、2のn―1乗を意味する。さらに、各レベルごとに絶対値の最大値を求め、ウェーブレット成分については(4)式、スケーリング関数成分については(5)式により、各レベルに対して任意に重み付けを行う。
図14に、各レベルに対する重み付け係数を設定する画面例を示す。図14では、重み付けを行うレベルを指定し、スライダーにより重み付け係数を設定できるようにしている。なお、重み付け係数のパターンを何種類か用意しておき、用意したパターンの中からユーザが使用するものを選択するようにしてもよい。
重み付けした後の特徴量をf´k=(W´1,1,W´1,2,・・・,W´1,M*(2^(n−1)),W´2,1,W´2,2,・・・,W´2,M*2^(n−2)),・・・,W´n,1,W´n,2,・・・W´n,M,V´n,1,V´n,2,・・・,V´n,M)と定義する。
ここに、W´k,l=ρ*Wk,l,V´n,l=ρ´*Vn,lの関係がある。この重み付けされた特徴量f´kを用いて、クラスタリングを行う。
負荷曲線は、元データが1時間値の場合は1日24時間であり、本方式では24次元の特徴ベクトルが生成されるが、30分値の場合は1日24時間48個のデータとなるため、48次元の特徴ベクトルとなる。
しかし、需要家の特性は1日24時間の特徴のみでなく、以下の組み合わせにも対応できるようにしている。すなわち、平日の24時間平均値と土曜日と日曜日の平均値を取ると、1時間値を対象とする場合は、72時間のデータを対象に特徴量を抽出する。この72時間の負荷曲線から特徴量を抽出することにより、需要家の特性を把握できる。本方式では対象とするデータの範囲、時間幅を意識せずに特徴量を抽出するものである。
次に、クラスタリング手段7の処理について、さらに詳しく説明する。
クラスタリング手段7でのクラスタリングの処理方法としては、クラスタ数を指定し、指定クラスタに対応する初期値を適当に割当てた後、さらに良い結果となるようにクラスタリングを行う非階層的クラスタ手法と、随時クラスタを結合する階層的クラスタ手法の両方法を、選択できるようにしている。
まず、非階層的クラスタ手法について説明する。
非階層的クラスタ手法では、初期値として指定されたクラスタ数分、先頭からの特徴量を取り出す。選択された初期値をシードといい、このシードから、K−Means法により、クラスタリングを行う。
さらに初期値として、別の組合わせをとり、これについてもクラスタリングを行う。これら異なる初期値の組合せ結果を評価し、全クラスタの重心とクラスタに属するノード間の距離の総和を評価し、最小になる(最も分散の小さくなる)クラスタリング結果を最終的な結果として採用する。
この場合、初期値の取り方により、クラスタリング結果が異なることを回避するため、初期値のパターンを複数与え、毎回同じ結果が得られるようにする。
以下、図8により、順を追って説明する。
図8において、まず、分割するクラスタ数Kを設定する(ステップS1)。次いで、分割数Kと同じデータ数を初期値として選択する(ステップS2)。この選択した初期値をシードという。次いで、K個のシードからのK以外の距離の小さいものを任意に選択し、クラスタを作成する(ステップS3)。次いで、全てのデータがK個のシードに割り当てられると各クラスタの重心を計算する(ステップS4)。次に、K個の重心を新たなシードとし、前回との距離の総和の差が一定値以下ならステップS6へ進み、そうでなければ、ステップS4に戻る(ステップS5)。次いで、N個の異なる初期値で計算したらステップS7に進み、まだ計算していなければ、ステップS2に戻る(ステップS6)。
最後にステップS6で、N個の異なる初期値で計算した重心からの距離の総和の最小のクラスタを選択する。
次に、階層的クラスタ手法について図9により説明する。
ここでは階層的な分類構造を得るのに、1つずつ対象から逐次似たものを集め、最終的に1つのクラスタにまとめていく。これを凝集型階層的クラスタ分析法という。このとき対象間の類似度の度合を表わす指標である非類似度なる距離を横軸にとり、対象を縦軸に等間隔にとったものを樹形図(デンドログラム)を図11として表示する。
図9では、一つの対象を構成単位とするn個のクラスタから出発する(ステップS11)。クラスタ間の非類似度行列を参照し、最も類似性の高い2つのクラスタを融合して、1つのクラスタを作る(ステップS12)。次いで、クラスタ数が1つになったら終了する(ステップS13)。クラスタ数が1つにならなければ、新しく作られたクラスタと、他のクラスタとの非類似度を計算して非類似度行列を更新して(ステップS14)、ステップS12に戻る。
これにより、結合距離のある断面で切り取ることにより、クラスタリングされた結果を得ることができる。この断面を自由に指定することにより、分析したいクラスタ数での分析ができる。図11の断面では、3つのクラスタに分類される、この分類にて(1)はスーパマーケット、(2)はレストラン、(3)は銀行が属する率が高いというように業種毎の傾向が負荷曲線の分類と一致しているかどうかの判別・評価を行う。
一般に結合距離が離れれば、それだけ無理にクラスタリングしていることを意味しており、結合距離が大きな値へと変化する手前のクラスタリングを適切なクラスタリングとして分析の対象とする。
ここでの凝集型の階層的クラスタ分析法としては、ウォード法(Ward method)を利用する。この場合の距離の計算式として、2つのクラスタ(p)、(q)を融合してつくられたクラスタ(t)と、別のクラスタ(r)を融合するときの非類似度dtrは(6)式で表わされる。なおn、n、n、nは、それぞれクラスタ(p)、(q)、(t)、(r)に属するデータのデータ数。非類似度とは、値の小さい方が類似性が高いことを表わす数値のことである。
次に、類似度分析にて分類したクラスタに対し、需要家毎の負荷曲線が、どのクラスタへ属するかの問い合わせに対応するため、非階層的クラスタまたは階層的クラスタのある分類において、新たに与えられた負荷曲線がどのクラスタに属するかを求めることができる。図10にその方法を示す。
例えば、ある需要家の負荷曲線がどの負荷曲線のクラスタに属しているかを調べ、同様な負荷曲線の需要家の属性情報を調査し、より適した料金メニューを推奨することができる。
図10では、既存クラスタに属する要素の平均を求める(ステップS21)。次いで、各クラスタの平均の特徴量を求める(ステップS22)。次いで、新規負荷曲線の特徴量を計算する(ステップS23)。次いで、新規負荷曲線の特徴量と既存クラスタの平均の特徴量のうち、最も距離の近い既存クラスタに属するクラスタを該当するクラスタとする(ステップS24)。
次に、評価マトリクス生成手段8について説明する。
図4に示す評価マトリクスは、評価マトリクス生成手段8によって生成され、クラスタリングされたデータについて、需要家の属性を縦軸にし、横軸に配置されたクラスタリングされたグループとの相関を、それぞれのマトリクス内の件数によって表わしている。
また、図5に示す評価マトリクスは、評価マトリックス生成手段8で、数値データを評価する側の評価区分としている。このとき、指定された分類数で評価するために、各クラスタ内の数値データの中央値を求め、隣接する中央値の平均を境界値とし、この該当区間を数値データに対する評価区分とするようにして、図5の評価マトリックスとして表示する。
この場合、評価マトリックス生成手段8にて、数値データを評価区分とした場合の境界値の求め方としては、数値データの最大値から最小値を減算し、評価区分数で割り算して各境界値を計算する方法と、図12のように、クラスタの平均値を計算し、平均値の昇順でクラスタをソートし、平均値の大きい2つのクラスタを選択し、2つのクラスタに対し中央値の平均値を境界値とする方法がある。
図4及び図5に示すマトリクスにより、偏り具合を見て、クラスタリング結果の評価を行うことができる。
次に、評価マトリクスへの適合度の表示について説明する。
この評価マトリクスでは、評価マトリックスにクラスタリングの結果の適合度を計算して表示することができる。ここで、適合度とは、分類した結果が、既存の属性キーの組合せと、どのくらい一致しているかの割合を評価するものである。
これにより、既存の分類区分(評価区分)にて、例えば業種別と契約別などの組合せと、利用実績の形状との適合度を評価することができる。適合度は、(7)式により、求められる。ここでは、図13のように、各属性(キー1〜キー3)の組合せによる分類区分の項目に含まれる要素の合計をSiとし、該当項目のクラスタのうち最大要素数をSiで割ってρとし、このρを属性の組合せの数(ただし、列がすべて0件を除く)数で割ったものを適合度μとする。
ただし、mは評価区分のキーの組合せ数(ただし、Si=0であるパターンは除く)
適合度の利用方法の例を図15により、説明する。図15は、この発明の実施の形態1で適合度の利用方法の例を説明する図である。図15には、2通りのクラスタリングの例を示している。図15(a)が、病院、工場、学校、官庁などの産業区分とクラスタリング結果とによる評価マトリクスであり、適合度μ=0.776となる。図15(b)が、自家発補給電力、高圧電力、業務用電力などの契約区分とクラスタリング結果とによる評価マトリクスであり、適合度μ=0.538となる。このように、一見、違いのわかりにくい評価マトリクスについても、適合度を求めることにより、この場合の産業区分のように、より適合度の高いキーを判別することができる。
また、業種別などの需要家の属性と負荷曲線から抽出した特徴量によるクラスタリング結果とから、属性の区分を変更する例を、図16を用いて説明する。図16は、この発明の実施の形態1でクラスタリング結果から区分を変更する例を説明する図である。従来は、産業区分として、石油・石炭、化学、パルプ・紙に3個に区分されていたとする。類似度分析の結果、図16のようなクラスタリング結果が得られたとする。クラスタ2とクラスタ3が対応していることから、クラスタ2とクラスタ3のそれぞれが1個の区分になるように、化学の区分を2つに細分した方がよいことが分かる。
実施の形態1によれば、業種別などの需要家の属性と、負荷曲線による分類の関係を評価できる。
このため、需要家の既存分類である業種別などの情報を場合によっては複数の業種を1つにまとめたり、逆に1つの業種を更に自家発有り無しを加味した分類にするなどのように、分類区分の見直しの情報を与える。
また、負荷曲線が収集されていない需要家に対し、属性情報の組み合わせにより、負荷曲線を推定することができる。
また、類似した需要家の契約内容を比較することにより、料金メニューの見直しや蓄熱システムを販売した需要家と類似した需要家への販売キャンペーンなどの情報として活用することができる。
ウェーブレット基底としては、スプライン基底、ドビッシー基底、シムレット基底、コイフレット基底などを用いてもよい。
この発明の実施の形態1による類似度分析評価システムを示す全体構成図である。 この発明の実施の形態1による類似度分析評価システムのウェーブレット変換による負荷曲線の特徴抽出とウェーブレット変換係数を示す図である。 この発明の実施の形態1による類似度分析評価システムの離散ウェーブレット変換により特徴量を抽出する過程を説明する図である。 この発明の実施の形態1による類似度分析評価システムのクラスタリングされた結果と属性による評価マトリックスを示す図である。 この発明の実施の形態1による類似度分析評価システムのクラスタリングされた結果とコード属性と数値データの組合わせによる評価マトリックスを示す図である。 この発明の実施の形態1による類似度分析評価システムのハールウェーブレットを示す図である。 この発明の実施の形態1による類似度分析評価システムのハールスケーリング関数を示す図である。 この発明の実施の形態1による類似度分析評価システムのクラスタリング処理(非階層的)を示すフローチャートである。 この発明の実施の形態1による類似度分析評価システムのクラスタリング処理(階層的)を示すフローチャートである。 この発明の実施の形態1による類似度分析評価システムの新たな負荷曲線の既存クラスタへの分類処理を示すフローチャートである。 この発明の実施の形態1による類似度分析評価システムの階層的クラスタリングの結果表現としての樹形図(デンドログラム)である。 この発明の実施の形態1による類似度分析評価システムの数値データを評価区分に分割するための境界値の求め方を示す図である。 この発明の実施の形態1による類似度分析評価システムの属性キーの組合せによる評価マトリックスを示す図である。 この発明の実施の形態1による類似度分析評価システムのウェーブレット変換係数の各レベルへの重みを与える画面例を示す図である。 この発明の実施の形態1による類似度分析評価システムの適合度の利用方法を説明する図である。 この発明の実施の形態1による類似度分析評価システムのクラスタリング結果から区分を変更する例を説明する図である。
符号の説明
1 需要家
2 サーバ
3 時系列データ
4 検索・集計エンジン
5 該当時系列データ
6 特徴量抽出手段
7 クラスタリング手段
8 評価マトリクス生成手段
9 表示処理部
10 端末の画面
11 抽出条件設定
12 特徴量重み付け設定
13 クラスタリング方法とクラスタ数設定
14 評価項目選択

Claims (6)

  1. 属性をもつ時系列データから、離散ウェーブレット変換により特徴量を抽出する特徴量抽出手段、
    この特徴量抽出手段により抽出された特徴量により、複数の上記時系列データを複数の集合に分類するに当って、K−Means法を用いる非階層的クラスタ手法と、Ward法を用いる階層的クラスタ手法のいずれかを選択して、この選択された手法により上記分類を行うクラスタリング手段、
    及びこのクラスタリング手段により分類された結果を上記時系列データがもつ属性をもとにして評価するために、上記分類された集合を一方の軸とし、上記属性を他方の軸とする評価マトリクスを生成する評価マトリクス生成手段を備えたことを特徴とする類似度分析評価システム。
  2. 上記特徴量抽出手段によって抽出される特徴量に対し、重み付けを行う特徴量重付け手段を備えたことを特徴とする請求項1記載の類似度分析評価システム。
  3. 上記クラスタリング手段によって分類するための分類数を設定するクラスタ数設定手段を備えたことを特徴とする請求項1または請求項2記載の類似度分析評価システム。
  4. 上記評価マトリクス生成手段は、上記クラスタリング手段により分類された結果が、上記属性に適合しているかどうかを示す適合度を算出し、評価マトリクス上に表示することを特徴とする請求項1〜請求項3のいずれかに記載の類似度分析評価システム。
  5. 上記評価マトリクス生成手段は、上記評価マトリクスの生成に用いられる属性が数値データの場合は、上記数値データを上記分類数に基づいて境界値算出を行うことを特徴とする請求項記載の類似度分析評価システム。
  6. 上記クラスタリング手段によって分類された結果及び上記評価マトリクス生成手段により生成された上記評価マトリクスをグラフ表示する表示手段を備えたことを特徴とする請求項1〜請求項5のいずれかに記載の類似度分析評価システム。
JP2008129775A 2008-05-16 2008-05-16 類似度分析評価システム Active JP5075009B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008129775A JP5075009B2 (ja) 2008-05-16 2008-05-16 類似度分析評価システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008129775A JP5075009B2 (ja) 2008-05-16 2008-05-16 類似度分析評価システム

Publications (2)

Publication Number Publication Date
JP2009277136A JP2009277136A (ja) 2009-11-26
JP5075009B2 true JP5075009B2 (ja) 2012-11-14

Family

ID=41442481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008129775A Active JP5075009B2 (ja) 2008-05-16 2008-05-16 類似度分析評価システム

Country Status (1)

Country Link
JP (1) JP5075009B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475754B2 (en) 2011-03-02 2019-11-12 Nokomis, Inc. System and method for physically detecting counterfeit electronics
US9059189B2 (en) 2011-03-02 2015-06-16 Nokomis, Inc Integrated circuit with electromagnetic energy anomaly detection and processing
JP2012190385A (ja) * 2011-03-14 2012-10-04 Yokogawa Electric Corp 集計解析支援装置およびコンピュータプログラム
JP5984348B2 (ja) * 2011-08-23 2016-09-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2015523706A (ja) * 2012-03-02 2015-08-13 ノコミス,インコーポレイテッド 偽造電子装置を物理的に検出するシステム及び方法
JP6151202B2 (ja) * 2014-02-28 2017-06-21 Kddi株式会社 特徴時間帯での消費電力量からユーザ属性を推定するプログラム、装置及び方法
WO2015133635A1 (ja) * 2014-03-07 2015-09-11 株式会社日立製作所 データ分析システム及び方法
JP6491499B2 (ja) * 2015-03-03 2019-03-27 東京電力ホールディングス株式会社 契約内容最適化方法
JP2017182266A (ja) * 2016-03-29 2017-10-05 株式会社東芝 電力需要予測装置
JP6798825B2 (ja) * 2016-08-29 2020-12-09 公立大学法人大阪 データ解析装置、制御装置、データ解析装置の制御方法、制御プログラム、および記録媒体
JP6317000B1 (ja) * 2017-02-20 2018-04-25 三菱電機インフォメーションシステムズ株式会社 ラベリング装置およびプログラム
JP6964836B2 (ja) * 2017-07-31 2021-11-10 東京電力ホールディングス株式会社 類似度算出装置、類似度算出方法、及びプログラム
CN108898273B (zh) * 2018-05-29 2022-04-15 国网能源研究院有限公司 一种基于形态分析的用户侧负荷特征聚类评价方法
JP7119630B2 (ja) * 2018-06-20 2022-08-17 日本電信電話株式会社 情報処理装置、情報交換システム、情報処理方法および情報処理プログラム
JP7370710B2 (ja) * 2018-08-28 2023-10-30 日鉄エンジニアリング株式会社 電力需要予測システム、電力需要予測モデルの構築方法、プログラム、及び営業支援システム
CN110516713A (zh) * 2019-08-02 2019-11-29 阿里巴巴集团控股有限公司 一种目标群体识别方法、装置及设备
JP7458183B2 (ja) 2019-12-26 2024-03-29 川崎重工業株式会社 エネルギー需要変動パターンの分類方法及びシステム
JP7447674B2 (ja) 2020-05-22 2024-03-12 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
CN114528334B (zh) * 2022-02-18 2022-10-18 重庆伏特猫科技有限公司 一种时序数据库中快速相似搜索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169613A (ja) * 2000-12-04 2002-06-14 Hitachi Ltd 電力ロードカーブの分析方法およびシステム
JP2004185490A (ja) * 2002-12-05 2004-07-02 Mitsubishi Electric Corp 需要家ロードプロファイル分類方式

Also Published As

Publication number Publication date
JP2009277136A (ja) 2009-11-26

Similar Documents

Publication Publication Date Title
JP5075009B2 (ja) 類似度分析評価システム
Luo et al. Deepeye: Towards automatic data visualization
AU2003225013B2 (en) Viewing multi-dimensional data through hierarchical visualization
Rao Data mining and clustering techniques
CN111143838B (zh) 数据库用户异常行为检测方法
Mazumdar et al. A knowledge dashboard for manufacturing industries
Elmunsyah et al. Classification of employee mental health disorder treatment with k-nearest neighbor algorithm
Nohuddin et al. A case study in knowledge acquisition for logistic cargo distribution data mining framework
Upadhyay et al. A survey on the classification techniques in educational data mining
Zada et al. Performance evaluation of simple K-mean and parallel K-mean clustering algorithms: big data business process management concept
CN108647985B (zh) 一种物品推荐方法和装置
Wang et al. A reliable location design of unmanned vending machines based on customer satisfaction
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
Liao et al. An adaptive genetic clustering method for exploratory mining of feature vector and time series data
Chen et al. Adjusting and generalizing CBA algorithm to handling class imbalance
Yang et al. Sequential clustering and classification approach to analyze sales performance of retail stores based on point-of-sale data
Belacel et al. The k Closest Resemblance Classifier for Amazon Products Recommender System.
Gupta et al. A detailed Study of different Clustering Algorithms in Data Mining
Khan et al. Frequent Patterns Minning of Stock Data Using Hybrid Clustering Association Algorithm
Johnpaul et al. Fuzzy representational structures for trend based analysis of time series clustering and classification
CN113902533B (zh) 一种适用于财税领域指标自定义和自动化运行的应用方法
Wang et al. Discovering the rating pattern of online reviewers through data coclustering
Özdağoğlu Revealing and Ranking Customer Groups From the Perspective of Their Experiences
CN109086321B (zh) 盲搜方法及系统
Thillainayagam Data Mining techniques and applications-A review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120801

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120824

R151 Written notification of patent or utility model registration

Ref document number: 5075009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250