JP6668494B2

JP6668494B2 - データ分析装置およびデータ分析方法

Info

Publication number: JP6668494B2
Application number: JP2018544285A
Authority: JP
Inventors: 康志宮田; 陽介石井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2020-03-18
Anticipated expiration: 2037-03-27
Also published as: JPWO2018179065A1; US11328024B2; WO2018179065A1; US20210011949A1

Description

本発明は、データ分析装置およびデータ分析方法に関する。

昨今、いわゆるＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）技術の進展に伴い、設備や機器といったモノから定期的にセンサデータを取得し、これを分析する手法が様々に提案されている。

上述のごとき分析に際し、センサデータを高速に逐次クラスタリングする従来技術の一例として、新たな点データが逐次得られる状況下で、前記新たな点データが入力される毎に、ある点データを核として一定の距離範囲にある近傍点データをクラスタ単位とするクラスタリング処理によるＤＢＳＣＡＮ（Density−Based Spatial Clustering of Applications with Noise）アルゴリズムを実行する逐次クラスタリング装置であって、過去のクラスタリング処理されたクラスタ構造を蓄積しておき、前記新たな点データが入力されたとき、蓄積されている既存のクラスタ構造を新たな点データに合わせて更新することとし、前記新たな点データが入力されるときに、前記新たな点データがクラスタの核になるか、前記新たな点データの近傍点データがクラスタ核になるかを判定する判定手段と、前記判定の結果に基づいて、前記既存のクラスタ構造に対して、前記新たな点データ及びその近傍点データについて、新しいクラスタの出現、既存のクラスタの拡張、クラスタ間の結合、のいずれかの変化の発生を判定し更新する更新手段とを備えることを特徴とする逐次クラスタリング装置（特許文献１参照）などが提案されている。

特許第５１５３６７７号公報

ところで、階層型、グリッド型、密度ベースといったクラスタリング処理では、データ分布に応じて初期条件値を計算する。しかし従来技術においては、点データが入力された場合に、当該点データの近傍点データのみ考慮し、当該点データ入力によるデータ分布の変化は考慮されていない。

また、データライフサイクル管理の観点では、センサデータ（上述の点データとなる）の計測対象である設備等の更新や経年劣化による影響を考慮する必要がある。上述の設備等の更新、経年劣化に伴い、古くなったセンサデータや、センサ故障等によって発生した不正なセンサデータを、更新或いは削除する必要が生じる。しかしながら従来技術においては、こうしたセンサデータの更新や削除が考慮されていない。従って、上述の更新、削除に伴うデータ分布の変化も考慮されていない。

つまり従来技術では、点データの入力（追加）、更新、削除によってデータ分布に変化が生じても、クラスタリング処理の初期条件値を正しい値に計算し直すことができない。例えば、密度ベースのクラスタリングであれば、ある一定の閾値以上のデータ密度の領域をクラスタとする。この閾値が初期条件値となるが、従来技術ではこれを変更できない。その結果、クラスタに含まれるべきデータが含まれない、または含まれるべきでないデータが含まれる、といった問題が発生する。

そこで本発明では、点データの追加、更新、削除の発生に際し、データ分布の変化によるクラスタリング初期条件値の再計算結果を反映したクラスタ構造の更新を、逐次クラスタリングにより実現することを目的とする。

上記課題を解決する本発明のデータ分析装置は、点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置であって、前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、当該再検証点データに応じて所定のクラスタリング処理を実行する演算装置を備えることを特徴とする。なお、上述の「コア」は、特許文献１における「核」と同義である（以下同様）。

また、本発明のデータ分析方法は、点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置が、前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、当該再検証点データに応じて所定のクラスタリング処理を実行することを特徴とする。

本発明によれば、点データの追加、更新、削除の発生に際し、データ分布の変化によるクラスタリング初期条件値の再計算結果を反映したクラスタ構造の更新を逐次クラスタリングにより実現できる。

ＤＢＳＣＡＮ実行結果の例を示す図である。ＤＢＳＣＡＮ初期条件値ＥＰＳの決定例を示す図である。実施例１におけるデータ分析装置の構成例を示す図である。実施例１におけるデータ分析方法のフロー例1を示す図である。実施例１における再検証判定データ表の例を示す図である。実施例１における初期条件値更新の例を示す図である。実施例１におけるデータ分析方法のフロー例２を示す図である。実施例１における追加／更新時ＥＰＳ更新ルール表の例を示す図である。実施例１における削除時ＥＰＳ更新ルール表の例を示す図である。実施例１におけるデータ分析方法のフロー例３を示す図である。実施例１におけるクラスタ所属表の例を示す図である。実施例１におけるクラスタラベル表の例を示す図である。実施例１におけるデータ分析方法のフロー例４を示す図である。実施例１におけるデータ分析方法のフロー例５を示す図である。実施例２におけるデータ分析装置の例を示す図である。実施例２におけるデータ管理画面の例を示す図である。実施例２における点データ追加後のデータ管理画面の例を示す図である。実施例３における階層型向け再検証判定データの例を示す図である。

−−−実施例１−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。本実施例では、設備に設置したセンサが生成するセンサデータより特徴量を抽出し、この特徴量の値を分析対象の点データとして逐次クラスタリングする状況を想定する。こうした状況に本発明のデータ分析方法を適用すれば、上述の設備の更新や経年劣化に応じ、データ分析におけるクラスタ構造を逐次更新することが可能となる。例えばクラスタを用いた異常予兆判定の精度を向上させることができる。

また、本実施例で扱う特徴量としては、取得時点のセンサデータの値の他、センサデータの変化率、周波数成分、最大値、最小値といった一定期間のセンサデータから計算できるものがある。また、クラスタリング手法としては、ここでは密度ベースのＤＢＳＣＡＮ（ＤｅｎｓｉｔｙＢａｓｅｄＳｐａｔｉａｌＣｌｕｓｔｅｒｉｎｇｏｆＡｐｐｌｉｃａｔｉｏｎｓｗｉｔｈＮｏｉｓｅ）を一例として採用する。また、その際の初期条件値としての密度を点データの追加、更新、および削除といった事象に応じて再計算する。

以降では、ここで扱うＤＢＳＣＡＮとその初期条件値の計算方法を示した後、データ分析装置により実施する初期条件値の更新を考慮した逐次クラスタリングについて説明する。

＜ＤＢＳＣＡＮと初期条件値について＞
図１にＤＢＳＣＡＮ実行結果の例を示す。特徴量空間１において実線の円が点データを示し、破線の円の集合がＤＢＳＣＡＮの結果計算されたクラスタ構造２（同一クラスタとする領域）である。ＤＢＳＣＡＮでは初期条件値としてＥＰＳとＭｉｎＰＴＳがあり、次のアルゴリズム従ってクラスタ構造２を決定する。

ＤＢＳＣＡＮでは、適当な点データを選択し、その点データに対して距離ＥＰＳ以内にＭｉｎＰＴＳ以上の点データ（Ｎ近傍点データ）が存在するか調査する。存在すれば、対象の点データをコアの点データ、すなわちコアポイントとし、このコアポイントから距離ＥＰＳ以内に存在する点データ、すなわちＮ近傍点データをエッジポイントとする。他方、上述で選択した点データが、そこから距離ＥＰＳ以内にＭｉｎＰＴＳ未満の点データしか存在せず、かつ、コアポイントのエッジポイントでなければ（すなわちクラスタ構造に属していない）、当該点データをノイズポイントとする。こうした処理を、全ての点データに対して実行し、コアポイントから距離ＥＰＳの円の集合がクラスタ構造２となる。

なお、上述の初期条件値たるＭｉｎＰＴＳは、一般に４以上であれば、クラスタリング結果がほぼ変わらないことが知られている。そこで本実施例でもＭｉｎＰＴＳを４と設定して説明する。

一方、ＥＰＳは、点データのデータ分布により変化する。このＥＰＳの決定方法の例を図２に示す。図２はＤＢＳＣＡＮの初期条件値であるＥＰＳの決定例を示す図である。この場合の特徴量空間１において、実線の円は点データを示す。また、各点データとＮ番目に近い点データへのポインタとその距離を矢印と数値で示す。なお、図２の例ではＮを１として最近傍の点データとの距離を示している。

ＤＢＳＣＡＮでは、どの点データからも離れた点データをノイズとすることで、ノイズ耐性の高いクラスタを実現している。このノイズ判定に基づいてＥＰＳを適宜に設定する方法が知られている。

例えば、図２においてＮ近傍点データからの距離がＥＰＳより離れた点をノイズとするようにＥＰＳを決定するとする。また、点データ５番が他の点データから最も離れた点データであり、この点データ５番のみをノイズとするためには、次に離れた点データ４番をノイズとしないようにＥＰＳを設定する。つまり、点データ４番とＮ近傍の距離がＥＰＳとなるように設定する。図２の例では距離１８がＥＰＳとなる。

＜データ分析装置：構成＞
ここまでで示したＤＢＳＣＡＮと初期条件値ＥＰＳの決定方法を例として、以降ではセンサデータの逐次クラスタリングを実現するデータ分析装置の例を説明する。本実施例におけるデータ分析装置の構成例を図３に示す。

このデータ分析装置１００は、ハードディスクなどの記憶装置１０１、メモリ１０３、ＣＰＵ１０４、入力装置１０５、表示装置１０６、および、通信装置１０７、を備える一般的なコンピュータを用いて実現することができる。

このうち入力装置１０５は、キーボードやマウスなど、ユーザが指示を入力するための装置である。この指示としては、例えば、プログラム起動などの指示や、点データの追加や処理結果の確定或いはアンドゥ等の指示など様々なものがあげられる。

また、表示装置１０６は、ディスプレイ等を想定する。この表示装置１０６は、データ分析装置１００による処理の実行状況や実行結果などを表示する。

また、ＣＰＵ１０４は、メモリ１０３に格納される各種プログラムを実行し、必要な機能を実装する演算装置である。

また、通信装置１０７は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの適宜なネットワーク１０を介して、他の装置と各種データやコマンドを交換する装置である。また、記憶装置１０１は、データ分析装置１００が処理を実行するための各種プログラム１０２、センサ５が生成したセンサデータから特徴量を抽出する点データ生成装置６、当該特徴量を示す点データ１１０、点データ群に対してクラスタリング処理した結果のクラスタ所属データ１１１およびラベルデータ１１２、点データの追加によりクラスタ構造を更新するために再検証を必要とする点データを絞り込む再検証判定データ表１１３、クラスタリングの初期条件値である初期条件値データ１１４を保存する。

また、メモリ１０３は、データ分析装置１００が処理を実行する各種プログラム１０２を保持する。

なお、データ分析装置１００が持つＣＰＵ１０４は、記憶装置１０１に格納されたプログラム１０２と各種データをメモリ１０３に読み出して実行する。プログラム１０２には、点データ受信初期処理部１２０、再検証判定部１３０、および、クラスタ構造更新部１４０、の各機能に応じたプログラムが含まれる。

＜データ分析装置：処理フロー＞
ここで、本実施例１におけるデータ分析方法のフロー例について説明する。図４は、図３に示すデータ分析装置１００が点データを受信した際に初期条件値の再計算を行い、必要に応じてクラスタ構造を更新する処理フローの例である。当該処理フローの概要を示した後、各処理部の詳細を説明するものとする。

まず、データ分析装置１００の点データ受信初期処理部１２０が、点データの追加、更新、削除のいずれかの指示を、入力装置１０５から受信する（ｓ１００）。

その後、点データ受信初期処理部１２０は、ｓ１００で受信した該当処理が、追加または更新か判定する（ｓ１０１）。この判定の結果、該当処理が追加または更新であれば（ｓ１０１：ＹＥＳ）、点データ受信初期処理部１２０は、処理をｓ１０２に遷移させる。

他方、上述の判定の結果、該当処理が削除であれば（ｓ１０１：ＮＯ）、点データ受信初期処理部１２０は、処理をｓ１０３に遷移させる。

ｓ１０２における点データ受信初期処理部１２０は、追加または更新の対象となる点データの再検証判定データを計算して再検証判定データ表１１３に追加する。

次に、再検証判定部１３０が、クラスタリング初期条件値を再計算する（ｓ１０３）。ＤＢＳＣＡＮの例ではＥＰＳを再計算する。その後、再検証判定部１３０は、ｓ１０３で再計算したクラスタリング初期条件値に合致する点データを、再検証判定データ表１１３から検索し、その結果をクラスタ構造更新部１４０に送付する（ｓ１０４）。

一方、クラスタ構造更新部１４０は、上述で追加または更新された点データ、および、ｓ１０４で検索された点データについて、逐次クラスタリング処理を実施し、ぞれぞれの点データに隣接する点データと所属するクラスタを導出する（ｓ１０５）。

その後、クラスタ構造更新部１４０は、ｓ１０５で導出した点データが所属するクラスタのラベル名と、ｓ１０５で導出した点データに隣接する点データのＤａｔａＩＤおよび距離と、を再検証判定データ表１１３に記録し処理を終了する（ｓ１０６）。

＜データ分析装置：各部の詳細＞
＜点データ受信初期処理部＞
本実施例において、データ分析装置１００の点データ受信初期処理部１２０は、変更点データ受信部１２１、再検証判定データ計算部１２２、点データおよび再検証判定データ記録部１２３から構成される。

このうち変更点データ受信部１２１は、センサ５によるセンサデータに対する特徴量抽出や各種分析によって点データ生成装置６が得た点データを、通信装置１０７を介して点データ生成装置６から受信する。

また、再検証判定データ計算部１２２は、逐次クラスタリング処理を実施する際に、上述の点データ生成装置６から受信した点データに基づいて再検証処理を行うため、３種類のデータを再検証判定データとして計算する。そのうち１つは、データを一意に識別するＩＤ情報である。１つは、再度クラスタリング処理の対象にする必要があるか判定するためのデータである。もう１つは、再検証後にクラスタ構造に変化を与える条件である。これらのデータの具体例については後述する。

また、点データおよび再検証判定データ記録部１２３は、上述の点データ生成装置６から受信した点データと再検証判定データを、記憶装置１０１に記録する。

＜再検証判定データ＞
図５はクラスタリング方法としてＤＢＳＣＡＮを採用した場合の再検証判定データ表１１３の具体例である。この再検証判定データ表１１３における各レコードは、再検証判定データとなる。こうした各レコード、すなわち再検証判定データにおいて、ＤａｔａＩＤは点データを一意に識別するＩＤを示す。

また、コア判定およびコア条件値は、当該点データが、再度クラスタリング処理の対象にする必要があるか判定するためのデータである。このうちコア判定の値は、当該点データがクラスタを構成するコアポイントの場合「Ｔｒｕｅ」を、コアポイントでない場合には「Ｆａｌｓｅ」となる。一方、コア条件値は、当該点データがコアポイントである条件を示す。具体的には、ＤａｔａＩＤ＝１の点データは、ＥＰＳが１０以上であればコアポイントであり、ＥＰＳが１０未満であればコアポイントでなくなる。Ｎ近傍データ群はこの点データに隣接するコアポイントのＤａｔａＩＤとこの点データとの距離をペアとしたペアデータを列挙する。ここで「隣接する」とは、この点データからＥＰＳ以内の距離に存在することである。

＜再検証判定部＞
本実施例におけるデータ分析装置１００の再検証判定部１３０は、上述の再検証判定データ表１１３の各再検証判定データを用いて逐次クラスタリングを実施する際に、再検証が必要な点データを判定する。

この再検証判定部１３０は、初期条件値再計算部１３１と再検証点データ検索部１３２から構成される。このうち初期条件値再計算部１３１は、クラスタリングの初期条件値を再計算する。ＤＢＳＣＡＮではＥＰＳを更新ＥＰＳとして再計算する。その具体的な処理フローは後述する。

また、再検証点データ検索部１３２では、上述の初期条件値再計算部１３１で計算された初期条件値を検索条件として、再検証する必要のある点データを検索する。この時、各点データに付与された再検証判定データにより検索条件との一致を判定する。具体的に、ＤＢＳＣＡＮの場合、更新ＥＰＳによりコアポイントでなくなる点データおよびコアポイントに変化する点データを検索する。例えば、ＥＰＳが１８から１７に更新された場合、図５の再検証判定データ表１１３のＤａｔａＩＤ＝４の点データにおいて、更新ＥＰＳはコア条件値の１８未満となり、コアポイントでなくなる。再検証点データ検索部１３２は、こうした点データを検索することとなる。また、ＥＰＳが１８から２５に更新された場合、ＤａｔａＩＤ＝５の点データにおいて更新ＥＰＳはコア条件値の２５以上となり、コアポイントとなる。同様に、再検証点データ検索部１３２は、こうした点データを検索することとなる。

＜初期条件値再計算部＞
上述した再検証判定部１３０の初期条件値再計算部１３１では、図６に示す特徴量空間１に点データが追加、削除、および更新のいずれかがなされた場合、上述の初期条件値の計算を行う。図６の特徴量空間１で示すように、点データ６番が追加され、点データ５番が削除された場合、最も離れた点が点データ４番に更新され、次に離れた点が点データ６番となる。ＥＰＳはデータ６と再近傍との距離である１７に更新されることになる。

図７にて、こうした初期条件値再計算部１３１が行うクラスタリング初期条件値の再計算フローについて説明する。この場合、初期条件値再計算部１３１は、点データの追加、更新、削除のいずれかの指示を入力装置１０５から受信する（ｓ２００）。

初期条件値再計算部１３１は、上述のｓ２００にて受信した指示の該当処理が、追加または更新であれば（ｓ２０１：ＹＥＳ）、処理をｓ２０３に進める。他方、該当処理が削除であれば（ｓ２０１：ＮＯ）、初期条件値再計算部１３１は、処理をｓ２０２に進める。

続いて、初期条件値再計算部１３１は、追加または更新された点データからＮ番目に近いデータとの距離をＮ近傍距離として計算する（ｓ２０３）。

その後、初期条件値再計算部１３１は、Ｎ近傍距離の値が近い２種類のデータを検索する（ｓ２０４）。このｓ２０４において、初期条件値再計算部１３１は、ｓ２００で指示を受信した点データよりＮ近傍距離が小さく、かつ最も近いデータをＮ近傍距離類似データ１、ｓ２００で指示を受信した点データよりＮ近傍距離が大きく、かつ最も近いデータをＮ近傍距離類似データ２、とする。

また、初期条件値再計算部１３１は、図８に示す追加／更新時ＥＰＳ更新ルール表１０２１（例えば、初期条件値再計算部１３１のプログラムが予め保持）を参照し、上述のＮ近傍距離類似データ１およびＮ近傍距離類似データ２が、コアポイント、エッジポイント、およびノイズポイントのいずれであるかによって、ＥＰＳを更新して処理を終了する（ｓ２０５）。

一方、ｓ２０２において、初期条件値再計算部１３１は、削除対象の点データがコアポイント、エッジポイント、およびノイズポイントのいずれの状態か取得する。その後、初期条件値再計算部１３１は、図９に示す削除時ＥＰＳ更新ルール表１０２２（初期条件値再計算部１３１のプログラムが予め保持）を参照し、削除対象の点データの状態に応じてＥＰＳを更新して処理を終了する（ｓ２０６）。

＜再検証点データ検索部＞
初期条件値が再計算されＥＰＳが更新ＥＰＳとなった場合、再検証点データ検索部１３２が、再検証の必要な点データを検索する。再検証が必要と判定されたデータは点データ再検証部１４１に送付され、点データ再検証部１４１が前記送付された点データの属性を更新する。この処理を図５、図１０を参照して説明する。

再検証点データ検索部１３２は、更新ＥＰＳと更新前のＥＰＳとを比較し（ｓ３００）、ＥＰＳが減少した場合と増加した場合とにおいて、再検証する必要のある点データを検索するものとする。

なお、更新によりＥＰＳが減少した場合、すなわち更新前ＥＰＳ＞更新ＥＰＳとなった場合（ｓ３０１：ＮＯ）、コアポイントでなくなる点データが存在する可能性がある。再検証点データ検索部１３２は、その点データを検索するため、図５の再検証判定データ表１１３においてコア判定が「Ｔｒｕｅ」かつ、コア条件値が更新ＥＰＳより大きい点データを探索する（ｓ３０４）。図５の例ではＤａｔａＩＤ＝４の点データが該当する。

一方、更新によりＥＰＳが増加した場合、すなわち更新前ＥＰＳ＜更新ＥＰＳとなった場合（ｓ３０１：ＹＥＳ）、新たにコアポイントとなる点データが存在する可能性がある。そのため、再検証点データ検索部１３２は、図５の再検証判定データ表１１３においてコア判定が「Ｆａｌｓｅ」かつ、コア条件値が更新ＥＰＳ以下の点データを探索する（ｓ３０２）。再検証点データ検索部１３２は、こうして検索した点データの情報をクラスタ構造更新部１４０に送付し、クラスタ構造の更新を行うこととなる。

＜クラスタ構造更新部＞
また、クラスタ構造変更部１４０の点データ再検証部１４１は、上述のｓ３０２、ｓ３０４により検索された点データ、すなわち再検証が必要な点データについて、当該点データがコアポイントか否かを再検証する。この再検証の結果、コアポイントでない点データについて、点データ再検証部１４１は、再検証判定データ表１３１の該当レコードにおいてコア判定を「Ｆａｌｓｅ」に更新する（ｓ３０５）。また、再検証の結果、コアポイントである点データについて、点データ再検証部１４１は、再検証判定データ表１３１の該当レコードにおいてコア判定を「Ｔｒｕｅ」に更新する（ｓ３０３）。

その後、点データ再検証部１４１は、上述のコア判定に変更のあった該当点データの近傍点データとの関係性から、図５に示す、再検証判定データのＮ近傍データ群を更新する。具体的には、点データ再検証部１４１は、コア判定に変更があった点データ群の各点データから距離が更新ＥＰＳ内のＮ近傍点データについて、コアポイントであるか探索し、当該Ｎ近傍点データがコアポイントであれば、そのＤａｔａＩＤと距離を計算する（ｓ３０６）。またｓ３０６における点データ再検証部１４１は、当該ＤａｔａＩＤと距離のペアをペアデータとし、図５の再検証判定データ表１１３に示す前記各点データに対応するＮ近傍データ群になければ追加する。

＜再検証結果記録部＞
ここまでの点データ再検証部１４１と点データ近傍再検証部１４２における処理により、再検証された点データの属性と再検証判定データが更新される。この更新結果は、再検証結果記録部１４４が記録する。これにより、再びデータが追加、削除、更新された場合に、最新の点データの属性および再検証判定データに基づいて再検証判定およびクラスタ構造の更新を実行できる。

＜クラスタ構造変更部＞
クラスタ構造変更部１４３では、点データ再検証部１４１および点データ近傍再検証部１４２にて更新された各点データの属性に応じてクラスタ構造を変更する。図１１、図１２の表および図１３、図１４の処理フローを参照して説明する。

上述の再検証後に点データがノイズポイントまたはエッジポイントとなった場合、図５の再検証判定データ表１１３で示すＮ近傍データ群がコアポイントか否かによってクラスタは消滅、縮小、分割の３通りの変更が起こりうる。上述の再検証後に点データがコアポイントと判定された場合、クラスタは生成、拡張、結合の３通りの変更が起こりうる。以降、図５の再検証判定データ表１１３で示すＮ近傍データ群がコアポイントである場合を近傍コアポイントと呼ぶこととする。以下では、図１３、図１４のクラスタ構造変更フローを参照してそれぞれ説明する。

＜図１３処理フロー＞
まず、クラスタ構造変更部１４３は、属性情報が変更された点データを取得する（ｓ４００）。その後、コアポイントでなくなる点データが存在するか判定し（ｓ４０１）、当該点データが存在すれば（ｓ４０１：ＹＥＳ）、クラスタ構造変更部１４３は、処理をｓ４０３へ進める、他方、当該点データが存在しなければ（ｓ４０１：ＮＯ）、クラスタ構造変更部１４３は、図１４の処理フローに進む（ｓ４０２）。

また、クラスタ構造変更部１４３は、コアポイントでなくなる点データの近傍コアポイントの存在有無を確認する（ｓ４０３）。この判定の結果、コアポイントでなくなる点データの近傍コアポイントが存在すれば（ｓ４０４：ＹＥＳ）、クラスタ構造変更部１４３は、処理をｓ４０５に進める。他方、判定の結果、コアポイントでなくなる点データの近傍コアポイントが存在しなければ（ｓ４０４：ＮＯ）、クラスタ構造変更部１４３は、処理をｓ４０６に進める。

続いて、クラスタ構造変更部１４３は、複数の近傍コアポイント間の距離が更新ＥＰＳより大か計算し（ｓ４０５）、その結果、複数の近傍コアポイント間の距離が更新ＥＰＳより大であれば（ｓ４０７：ＹＥＳ）、処理をｓ４０８に進める。

他方、複数の近傍コアポイント間の距離が更新ＥＰＳより大でなければ（ｓ４０７：ＮＯ）、クラスタ構造変更部１４３は、処理をｓ４０９に進める。

次に、クラスタ構造変更部１４３は、上述の点データと対応づいたクラスタＩＤとラベルをクラスタラベル表１１２１から削除し（ｓ４０６）、処理をｓ４０９に進める。

また、クラスタ構造変更部１４３は、クラスタ所属表１１１１から、コアポイントでなくなる点データを削除し（ｓ４０９）、処理を終了する。

＜図１４処理フロー＞
図１４の処理フローは、上述の図１３のフローにおけるｓ４０２の結果を受けて実施される。この場合まず、クラスタ構造変更部１４３は、コアポイントとなる点データの近傍コアポイントの存在有無を確認する（ｓ５００）。

上述の確認の結果、近傍コアポイントが存在すれば（ｓ５０１：ＹＥＳ）、クラスタ構造変更部１４３は、処理をｓ５０２に進める。他方、近傍コアポイントが存在しなければ（ｓ５０１：ＮＯ）、クラスタ構造変更部１４３は、処理をｓ５０６に進める。

次に、クラスタ構造変更部１４３は、複数の近傍コアポイントの所属クラスタを示すクラスタＩＤが複数種類存在するか確認する（ｓ５０２）。この確認の結果、該当クラスタＩＤが複数存在すれば（ｓ５０３：ＹＥＳ）、クラスタ構造変更部１４３は、処理をｓ５０４に進める。他方、該当クラスタＩＤが複数存在しなければ（ｓ５０３：ＮＯ）、クラスタ構造変更部１４３は、処理をｓ５０５に進める。

また、クラスタ構造変更部１４３は、複数のクラスタＩＤに対応するラベルを１つの名前にマージしてクラスタラベル表１１２１を更新し（ｓ５０４）、処理をｓ５０５に進める。

次に、クラスタ構造変更部１４３は、近傍コアポイントと同じクラスタＩＤをクラスタ所属表１１１１に追加し（ｓ５０５）、処理を終了する。

また、クラスタ構造変更部１４３は、新しいクラスタが発生したとしてクラスタＩＤとラベルを新規作成してクラスタラベル表１１２１とクラスタ所属表１１１１に追加し（ｓ５０６）、処理を終了する。

＜クラスタ構造データ記録部＞
なお、クラスタ構造更新部１４０のクラスタ構造データ記録部１４５では、ここまでの各点データの所属を図１１のクラスタ所属表１１１１へ、各クラスタのラベル名を図１２のクラスタラベル表１１２１に記録する。

まず、図１１に示すクラスタ所属表１１１１への記録について説明する。各点データには自身が所属するクラスタのＩＤ情報（ＣｌｕｓｔｅｒＩＤ）を持ち、各ＩＤは図１２のクラスタラベル表１１２１に示すラベルと対応する。また、クラスタ構造変更部１４３において、点データがコアポイントまたはエッジポイントとなった場合には所属するクラスタのＣｌｕｓｔｅｒＩＤを点データのＤａｔａＩＤとともに図１１のクラスタ所属表１１１１に追加する。一方、点データがノイズポイントとなった場合には、クラスタ構造変更部１４３において、所属するクラスタが存在しないとして、該当点データに対応するＤａｔａＩＤの行を図１１のクラスタ所属表１１１１から削除する。

次に図１２に示すクラスタラベル表１１２１への記録について説明する。クラスタラベル表１１２１への記録は、クラスタ構造の生成、消滅、結合、分割の４つの場合に実施する。このうちクラスタ構造の生成の場合、クラスタ構造データ記録部１４５は、クラスタラベル表１１２１において、一意に識別可能なＣｌｕｓｔｅｒＩＤを新たに生成し、当該クラスタ構造に関してラベル名を付与する。一方、クラスタ構造の消滅の場合、クラスタ構造データ記録部１４５は、クラスタラベル表１１２１において、該当するＣｌｕｓｔｅｒＩＤとラベル名を削除する。また、クラスタ構造の結合の場合、クラスタ構造データ記録部１４５は、クラスタラベル表１１２１において、結合対象の複数のＣｌｕｓｔｅｒＩＤと紐づくラベル名全てを結合後の１つのラベル名に更新する。また、クラスタ構造の分割の場合、クラスタ構造データ記録部１４５は、クラスタラベル表１１２１において、分割対象となったクラスタＩＤに分割中を示す情報を付与する。その後、クラスタ構造データ記録部１４５は、クラスタ所属表１１１１を参照して、各点データが分割後のどちらのクラスタに所属するかを調査し、図１１に示すクラスタ所属表１１１１のＣｌｕｓｔｅｒＩＤを、新たに生成した一意に識別可能なクラスタＩＤに更新し、図１２のクラスタラベル表１１２１には新たなクラスタＩＤとラベルの組合せを追加する。こうした更新後、クラスタ構造データ記録部１４５は、クラスタラベル表１１２１において、分割中を示す情報が付与されたクラスタＩＤとラベル名の組合せの情報を削除する。なお、この分割時の処理はクラスタ構造変更部１４３の処理中に実施してもよいし、クラスタ構造変更部１４３の処理が終了した後に次の新たな点データを受信して次のクラスタ構造変更の処理を実施している間に実施してもよい。

−−−実施例２：データ管理者−−−
実施例１においては、図３で示したように、データ分析装置１００が通信装置１０７を介して点データを受信する構成となっていた。一方、実施例２では、図１５に示したデータ管理者向けデータ分析装置１００に、データ管理者が入力装置１０５を介して記憶装置１０１に記録された点データの追加、更新、削除を行う構成を想定する。

この場合のデータ管理者は、センサデータ取得対象の機器の更新や経年劣化により、古くなったデータを削除することや、センサの不具合により間違って記録されたデータを更新することも可能となる。さらに、これら点データの追加、更新、削除と、それに伴うクラスタ構造の変化を、データ管理画面（後述）により確認することができる。

図１５のデータ管理者向けデータ分析装置１００では、図３のデータ分析装置に更新クラスタ構造情報出力部１５０を追加した構成となっている。

この更新クラスタ構造情報出力部１５０は、記憶装置１０１に格納された点データ１１０より計算されたクラスタ構造を描画するクラスタ構造描画部１５１、前記点データの追加、更新、削除の日時を表示する点データ履歴表示部１５２、および、クラスタリング処理を実施する際に初期条件値となる各種パラメータを出力する初期条件値出力部１５３を備える。また、記憶装置１０１では点データ履歴１１５を格納する。

以下、図１６のデータ管理画面１０００の例を参照して、上述のデータ管理者がクラスタ構造を構成する点データを追加、更新、削除の操作を入力装置１０５で行い、これに応じてデータ管理者向けデータ分析装置１００がクラスタ構造の形状を更新する例を示す。

データ管理者は、図１６に示すデータ管理画面１０００を表示装置１０６にて閲覧し、入力装置１０５を操作して、管理したいデータ種別をクラスタリング対象データ選択欄１０３０より選択する。また、データ管理者は、上述で選択したデータ種別に対して実行済みのクラスタリング処理を、クラスタリング手法欄１０３１で検索して検索ボタン１００１を押下する。

この押下を受けたデータ管理者向けデータ分析装置１００は、クラスタ構造描画画面１００２にて、クラスタ構造１００３を表示するとともに、クラスタリング処理の初期条件値リスト１００４を表示させる。また、データ管理者向けデータ分析装置１００は、データ管理画面１０００の下部に、クラスタリング対象の点データの一覧である、点データリスト１００５を表示する。この点データリスト１００５は、点データを一意に識別するＤａｔａＩＤ、点データを生成したセンサを示すＳｅｎｓｏｒＩＤ、所属するクラスタのラベル名を示すＣｌｕｓｔｅｒＬａｂｅｌ、該当点データが記録された時刻を示すＴｉｍｅＳｔａｍｐから構成される。

データ管理者は、入力装置１０５を操作して、上述の点データリスト１００５における、上述のＤａｔａＩＤ、ＳｅｎｓｏｒＩＤ、ＣｌｕｓｔｅｒＬａｂｅｌ、ＴｉｍｅＳｔａｍｐの各項目を、該当各項目に関する絞り込み用インターフェイス１００６で選択し、該当項目の条件値を絞込条件欄１００７に設定する。こうした設定を行うことで、点データリスト１００５で表示されるデータを絞り込むことができる。

また、上述のデータ管理者が、入力装置１０５を操作して追加ボタン１００８を押下することで、例えば、点データの入力インターフェイスを呼び出して、これを介して点データの追加を行うことができるものとする。さらに、データ管理者が、点データリスト１００５に付随するチェックボックス１００９をチェックして更新ボタン１０１０または削除ボタン１０１１を押下することで、該当点データの更新または削除の各操作を行うことができるものとする。

データ管理者は、ここまでの点データの追加、更新、削除といった操作を実施した後、更新ボタン１０１２を押下することで、実施例１に記載した初期条件値の再計算と逐次クラスタリング処理をデータ管理者向けデータ分析装置１００に指示する。データ管理者向けデータ分析装置１００は、この指示に応じて該当処理を実行し、その結果をデータ管理画面１０００に再描画する。

データ管理者が点データリスト１００５に点データの追加操作を行った場合の、データ管理者向けデータ分析装置１００による再描画結果の例を、図１７のデータ管理画面１１００に示す。点データを追加、更新、削除した場合、データ分析装置１００による処理（実施例１）により、クラスタリング処理の初期条件値およびクラスタ構造が更新されることになる。

ＤＢＳＣＡＮを例とした場合、初期条件値リスト１００４において、図１６のデータ管理画面１０００ではＥＰＳが「１８」であったが、点データ追加に伴い、図１７のデータ管理画面１１００では「１７」に更新されている。また、それに応じてクラスタ構造も更新されている。図１７に示すデータ管理画面１１００の例では、クラスタ構造描画画面１００２にて、破線がＥＰＳ更新前のクラスタ構造を示し、灰色部分はＥＰＳが「１７」となった場合のクラスタ構造を示す。

この場合のクラスタ構造において、「ＴｙｐｅＡ」のラベルが付与されたクラスタは、ＥＰＳが小さくなることで、該当する点データ（１７０１）の周囲にＭｉｎＰＴＳ以上の点データが存在しなくなったためクラスタが縮小している。

このようにしてデータ管理者は、データ管理画面１１００を用いて点データの追加、更新、削除の各操作を行い、その結果であるクラスタ構造の変化を全データの再計算を待たずに、当該データ管理画面１１００にて確認することができる。

なお、データ管理者が更新ボタン１０１２を押下した際の処理結果を一時的なものとし、データ管理者が結果を確認した後に確定させる確定ボタンを、データ管理画面１０００，１１００に別途設けるとしてもよい。さらに、点データリスト１００５とクラスタ構造描画画面１００２との対応関係を示すために、対応関係のある各データリストと各点データに、所定の対応色をつけて描画するとてもよい。また、ＴｉｍｅＳｔａｍｐが特定時刻より前のデータや後のデータに対して新旧を示す所定色をつけて描画するとしてもよい。

−−−実施例３：階層型のクラスタリング−−−
実施例１においては、データ分析装置１００が密度ベースのＤＢＳＣＡＮによるクラスタリングを逐次実行する構成となっていた。一方、実施例３では、データ分析装置１００が、階層型クラスタリングを逐次実行する例について示す。

階層型のクラスタリングでは、クラスタ間の類似度を計算し、最も類似しているクラスタを併合していき、全てのクラスタが１つのクラスタになるまでその処理を繰り返すことになる。この際、点データの追加、更新、削除によりクラスタ階層を構成する各階層のクラスタの類似度が変化することとなる。

そこで、この類似度が変化するクラスタを絞り込んで計算量を削減するため、データ分析装置１０００は、再検証判定データ表１１３の代わりに、図１８に示す階層型向け再検証判定データ表１１３１を備えるものとする。

この階層型向け再検証判定データ表１１３１には、各点データごとに１行の再検証判定データを保持させる。ＤａｔａＩＤは点データを一意に示すＩＤ、所属クラスタは点データが所属するクラスタである。また、最近傍クラスタは、所属クラスタが最も類似するクラスタとその距離を示す。これにより、どのクラスタと併合されているかを表現することができる。また、隣接クラスタは、同一階層に存在するクラスタとその類似度を示す距離のリストを示す。

点データが追加、更新、削除された場合には、データ分析装置１０００は、当該点データにより変化が発生する所属クラスタを探索し、当該所属クラスタと最近傍クラスタとの距離を計算し直す。これにより、所属クラスタと最近傍クラスタとの距離が大きくなれば、データ分析装置１００は、隣接クラスタより最も類似したクラスタから再併合先のクラスタを探索するものとする。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

本実施形態のデータ分析装置によれば点データの追加、更新、削除の発生に際し、データ分布の変化によるクラスタリング初期条件値の再計算結果を反映したクラスタ構造の更新を逐次クラスタリングにより実現できる。

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ分析装置において、前記演算装置は、前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが１つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割するものである、としてもよい。

これによれば、点データ追加に伴うＥＰＳ等の初期条件値の更新に応じた、既存クラスタの消滅、縮小、分割といった従来では対応出来なかったクラスタリングが効率的かつ的確に可能となる。

また、本実施形態のデータ分析装置において、前記演算装置は、既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合するものである、としてもよい。

これによれば、点データ追加に伴うＥＰＳ等の初期条件値の更新に応じた、既存クラスタの生成、拡大、結合といったクラスタリングが、より効率的かつ的確に可能となる。

また、本実施形態のデータ分析装置において、前記演算装置は、所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、を更に実行するものであるとしてもよい。

これによれば、本実施形態におけるＥＰＳ等の初期条件値の更新、および、これに伴うクラスタ更新、の内容をユーザに対して視覚的に明示し、当該ユーザの認否等の適宜な意思を確認、反映させることが可能となる。

また、本実施形態のデータ分析装置において、前記演算装置は、階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定するものである、としてもよい。

これによれば、本実施形態のデータ分析手法を、非階層型のクラスタリングのみならず、階層型クラスタリングにも適用可能となる。

また、本実施形態のデータ分析方法において、前記データ分析装置が前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが１つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割する、としてもよい。

また、本実施形態のデータ分析方法において、前記データ分析装置が、既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合する、としてもよい。

また、本実施形態のデータ分析方法において、前記データ分析装置が、所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、を更に実行するとしてもよい。

また、本実施形態のデータ分析方法において、前記データ分析装置が、階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定するとしてもよい。

１特徴量空間
２クラスタ構造
５センサ
６点データ生成装置
１０ネットワーク
１００データ分析装置
１０１記憶装置
１０２プログラム
１０２１追加／更新時ＥＰＳ更新ルール表
１０２２削除時ＥＰＳ更新ルール表
１０３メモリ
１０４ＣＰＵ（演算装置）
１０５入力装置
１０６表示装置
１０７通信装置
１１０点データ
１１１クラスタ所属データ
１１１１クラスタ所属表
１１２１クラスタラベル表
１１２ラベルデータ
１１３再検証判定データ表
１１３１階層型向け再検証判定データ表
１１４初期条件値データ
１１５点データ履歴
１２０点データ受信初期処理部
１２１変更点データ受信部
１２２再検証判定データ計算部
１２３点データおよび再検証判定データ記録部
１３０再検証判定部
１３１初期条件値再計算部
１３２再検証点データ検索部
１４０クラスタ構造更新部
１４１点データ再検証部
１４２点データ近傍再検証部
１４３クラスタ構造変更部
１４４再検証結果記録部
１４５クラスタ構造データ記録部
１５０更新クラスタ構造情報出力部
１５１クラスタ構造描画部
１５２点データ履歴表示部
１５３初期条件値出力部
１０００、１１００データ管理画面

Claims

点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置であって、
前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、当該再検証点データに応じて所定のクラスタリング処理を実行する演算装置を備えるデータ分析装置。
前記演算装置は、
前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが１つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割するものである、
ことを特徴とする請求項１に記載のデータ分析装置。
前記演算装置は、
既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合するものである、
ことを特徴とする請求項１に記載のデータ分析装置。
前記演算装置は、
所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、
前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、
を更に実行するものであることを特徴とする請求項１に記載のデータ分析装置。
前記演算装置は、
階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定するものである、
ことを特徴とする請求項１に記載のデータ分析装置。
点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置が、
前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、
当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、
当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、
当該再検証点データに応じて所定のクラスタリング処理を実行する、
ことを特徴とするデータ分析方法。
前記データ装置が、
前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが１つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割する、
ことを特徴とする請求項６に記載のデータ分析方法。
前記データ分析装置が、
既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合する、
ことを特徴とする請求項６に記載のデータ分析方法。
前記データ分析装置が、
所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、
前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、
を更に実行することを特徴とする請求項６に記載のデータ分析方法。
前記データ分析装置が、
階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定する、
ことを特徴とする請求項６に記載のデータ分析方法。