JP6668494B2 - データ分析装置およびデータ分析方法 - Google Patents

データ分析装置およびデータ分析方法 Download PDF

Info

Publication number
JP6668494B2
JP6668494B2 JP2018544285A JP2018544285A JP6668494B2 JP 6668494 B2 JP6668494 B2 JP 6668494B2 JP 2018544285 A JP2018544285 A JP 2018544285A JP 2018544285 A JP2018544285 A JP 2018544285A JP 6668494 B2 JP6668494 B2 JP 6668494B2
Authority
JP
Japan
Prior art keywords
point data
data
cluster
verification
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018544285A
Other languages
English (en)
Other versions
JPWO2018179065A1 (ja
Inventor
康志 宮田
康志 宮田
陽介 石井
陽介 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2018179065A1 publication Critical patent/JPWO2018179065A1/ja
Application granted granted Critical
Publication of JP6668494B2 publication Critical patent/JP6668494B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ分析装置およびデータ分析方法に関する。
昨今、いわゆるIoT(Internet of Things)技術の進展に伴い、設備や機器といったモノから定期的にセンサデータを取得し、これを分析する手法が様々に提案されている。
上述のごとき分析に際し、センサデータを高速に逐次クラスタリングする従来技術の一例として、新たな点データが逐次得られる状況下で、前記新たな点データが入力される毎に、ある点データを核として一定の距離範囲にある近傍点データをクラスタ単位とするクラスタリング処理によるDBSCAN(Density−Based Spatial Clustering of Applications with Noise)アルゴリズムを実行する逐次クラスタリング装置であって、過去のクラスタリング処理されたクラスタ構造を蓄積しておき、前記新たな点データが入力されたとき、蓄積されている既存のクラスタ構造を新たな点データに合わせて更新することとし、前記新たな点データが入力されるときに、前記新たな点データがクラスタの核になるか、前記新たな点データの近傍点データがクラスタ核になるかを判定する判定手段と、前記判定の結果に基づいて、前記既存のクラスタ構造に対して、前記新たな点データ及びその近傍点データについて、新しいクラスタの出現、既存のクラスタの拡張、クラスタ間の結合、のいずれかの変化の発生を判定し更新する更新手段とを備えることを特徴とする逐次クラスタリング装置(特許文献1参照)などが提案されている。
特許第5153677号公報
ところで、階層型、グリッド型、密度ベースといったクラスタリング処理では、データ分布に応じて初期条件値を計算する。しかし従来技術においては、点データが入力された場合に、当該点データの近傍点データのみ考慮し、当該点データ入力によるデータ分布の変化は考慮されていない。
また、データライフサイクル管理の観点では、センサデータ(上述の点データとなる)の計測対象である設備等の更新や経年劣化による影響を考慮する必要がある。上述の設備等の更新、経年劣化に伴い、古くなったセンサデータや、センサ故障等によって発生した不正なセンサデータを、更新或いは削除する必要が生じる。しかしながら従来技術においては、こうしたセンサデータの更新や削除が考慮されていない。従って、上述の更新、削除に伴うデータ分布の変化も考慮されていない。
つまり従来技術では、点データの入力(追加)、更新、削除によってデータ分布に変化が生じても、クラスタリング処理の初期条件値を正しい値に計算し直すことができない。例えば、密度ベースのクラスタリングであれば、ある一定の閾値以上のデータ密度の領域をクラスタとする。この閾値が初期条件値となるが、従来技術ではこれを変更できない。その結果、クラスタに含まれるべきデータが含まれない、または含まれるべきでないデータが含まれる、といった問題が発生する。
そこで本発明では、点データの追加、更新、削除の発生に際し、データ分布の変化によるクラスタリング初期条件値の再計算結果を反映したクラスタ構造の更新を、逐次クラスタリングにより実現することを目的とする。
上記課題を解決する本発明のデータ分析装置は、点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置であって、前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、当該再検証点データに応じて所定のクラスタリング処理を実行する演算装置を備えることを特徴とする。なお、上述の「コア」は、特許文献1における「核」と同義である(以下同様)。
また、本発明のデータ分析方法は、点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置が、前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、当該再検証点データに応じて所定のクラスタリング処理を実行することを特徴とする。
本発明によれば、点データの追加、更新、削除の発生に際し、データ分布の変化によるクラスタリング初期条件値の再計算結果を反映したクラスタ構造の更新を逐次クラスタリングにより実現できる。
DBSCAN実行結果の例を示す図である。 DBSCAN初期条件値EPSの決定例を示す図である。 実施例1におけるデータ分析装置の構成例を示す図である。 実施例1におけるデータ分析方法のフロー例1を示す図である。 実施例1における再検証判定データ表の例を示す図である。 実施例1における初期条件値更新の例を示す図である。 実施例1におけるデータ分析方法のフロー例2を示す図である。 実施例1における追加/更新時EPS更新ルール表の例を示す図である。 実施例1における削除時EPS更新ルール表の例を示す図である。 実施例1におけるデータ分析方法のフロー例3を示す図である。 実施例1におけるクラスタ所属表の例を示す図である。 実施例1におけるクラスタラベル表の例を示す図である。 実施例1におけるデータ分析方法のフロー例4を示す図である。 実施例1におけるデータ分析方法のフロー例5を示す図である。 実施例2におけるデータ分析装置の例を示す図である。 実施例2におけるデータ管理画面の例を示す図である。 実施例2における点データ追加後のデータ管理画面の例を示す図である。 実施例3における階層型向け再検証判定データの例を示す図である。
−−−実施例1−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。本実施例では、設備に設置したセンサが生成するセンサデータより特徴量を抽出し、この特徴量の値を分析対象の点データとして逐次クラスタリングする状況を想定する。こうした状況に本発明のデータ分析方法を適用すれば、上述の設備の更新や経年劣化に応じ、データ分析におけるクラスタ構造を逐次更新することが可能となる。例えばクラスタを用いた異常予兆判定の精度を向上させることができる。
また、本実施例で扱う特徴量としては、取得時点のセンサデータの値の他、センサデータの変化率、周波数成分、最大値、最小値といった一定期間のセンサデータから計算できるものがある。また、クラスタリング手法としては、ここでは密度ベースのDBSCAN(Density Based Spatial Clustering of Applications with Noise)を一例として採用する。また、その際の初期条件値としての密度を点データの追加、更新、および削除といった事象に応じて再計算する。
以降では、ここで扱うDBSCANとその初期条件値の計算方法を示した後、データ分析装置により実施する初期条件値の更新を考慮した逐次クラスタリングについて説明する。
<DBSCANと初期条件値について>
図1にDBSCAN実行結果の例を示す。特徴量空間1において実線の円が点データを示し、破線の円の集合がDBSCANの結果計算されたクラスタ構造2(同一クラスタとする領域)である。DBSCANでは初期条件値としてEPSとMinPTSがあり、次のアルゴリズム従ってクラスタ構造2を決定する。
DBSCANでは、適当な点データを選択し、その点データに対して距離EPS以内にMinPTS以上の点データ(N近傍点データ)が存在するか調査する。存在すれば、対象の点データをコアの点データ、すなわちコアポイントとし、このコアポイントから距離EPS以内に存在する点データ、すなわちN近傍点データをエッジポイントとする。他方、上述で選択した点データが、そこから距離EPS以内にMinPTS未満の点データしか存在せず、かつ、コアポイントのエッジポイントでなければ(すなわちクラスタ構造に属していない)、当該点データをノイズポイントとする。こうした処理を、全ての点データに対して実行し、コアポイントから距離EPSの円の集合がクラスタ構造2となる。
なお、上述の初期条件値たるMinPTSは、一般に4以上であれば、クラスタリング結果がほぼ変わらないことが知られている。そこで本実施例でもMinPTSを4と設定して説明する。
一方、EPSは、点データのデータ分布により変化する。このEPSの決定方法の例を図2に示す。図2はDBSCANの初期条件値であるEPSの決定例を示す図である。この場合の特徴量空間1において、実線の円は点データを示す。また、各点データとN番目に近い点データへのポインタとその距離を矢印と数値で示す。なお、図2の例ではNを1として最近傍の点データとの距離を示している。
DBSCANでは、どの点データからも離れた点データをノイズとすることで、ノイズ耐性の高いクラスタを実現している。このノイズ判定に基づいてEPSを適宜に設定する方法が知られている。
例えば、図2においてN近傍点データからの距離がEPSより離れた点をノイズとするようにEPSを決定するとする。また、点データ5番が他の点データから最も離れた点データであり、この点データ5番のみをノイズとするためには、次に離れた点データ4番をノイズとしないようにEPSを設定する。つまり、点データ4番とN近傍の距離がEPSとなるように設定する。図2の例では距離18がEPSとなる。
<データ分析装置:構成>
ここまでで示したDBSCANと初期条件値EPSの決定方法を例として、以降ではセンサデータの逐次クラスタリングを実現するデータ分析装置の例を説明する。本実施例におけるデータ分析装置の構成例を図3に示す。
このデータ分析装置100は、ハードディスクなどの記憶装置101、メモリ103、CPU104、入力装置105、表示装置106、および、通信装置107、を備える一般的なコンピュータを用いて実現することができる。
このうち入力装置105は、キーボードやマウスなど、ユーザが指示を入力するための装置である。この指示としては、例えば、プログラム起動などの指示や、点データの追加や処理結果の確定或いはアンドゥ等の指示など様々なものがあげられる。
また、表示装置106は、ディスプレイ等を想定する。この表示装置106は、データ分析装置100による処理の実行状況や実行結果などを表示する。
また、CPU104は、メモリ103に格納される各種プログラムを実行し、必要な機能を実装する演算装置である。
また、通信装置107は、LAN(Local Area Network)などの適宜なネットワーク10を介して、他の装置と各種データやコマンドを交換する装置である。 また、記憶装置101は、データ分析装置100が処理を実行するための各種プログラム102、センサ5が生成したセンサデータから特徴量を抽出する点データ生成装置6、当該特徴量を示す点データ110、点データ群に対してクラスタリング処理した結果のクラスタ所属データ111およびラベルデータ112、点データの追加によりクラスタ構造を更新するために再検証を必要とする点データを絞り込む再検証判定データ表113、クラスタリングの初期条件値である初期条件値データ114を保存する。
また、メモリ103は、データ分析装置100が処理を実行する各種プログラム102を保持する。
なお、データ分析装置100が持つCPU104は、記憶装置101に格納されたプログラム102と各種データをメモリ103に読み出して実行する。プログラム102には、点データ受信初期処理部120、再検証判定部130、および、クラスタ構造更新部140、の各機能に応じたプログラムが含まれる。
<データ分析装置:処理フロー>
ここで、本実施例1におけるデータ分析方法のフロー例について説明する。図4は、図3に示すデータ分析装置100が点データを受信した際に初期条件値の再計算を行い、必要に応じてクラスタ構造を更新する処理フローの例である。当該処理フローの概要を示した後、各処理部の詳細を説明するものとする。
まず、データ分析装置100の点データ受信初期処理部120が、点データの追加、更新、削除のいずれかの指示を、入力装置105から受信する(s100)。
その後、点データ受信初期処理部120は、s100で受信した該当処理が、追加または更新か判定する(s101)。この判定の結果、該当処理が追加または更新であれば(s101:YES)、点データ受信初期処理部120は、処理をs102に遷移させる。
他方、上述の判定の結果、該当処理が削除であれば(s101:NO)、点データ受信初期処理部120は、処理をs103に遷移させる。
s102における点データ受信初期処理部120は、追加または更新の対象となる点データの再検証判定データを計算して再検証判定データ表113に追加する。
次に、再検証判定部130が、クラスタリング初期条件値を再計算する(s103)。DBSCANの例ではEPSを再計算する。その後、再検証判定部130は、s103で再計算したクラスタリング初期条件値に合致する点データを、再検証判定データ表113から検索し、その結果をクラスタ構造更新部140に送付する(s104)。
一方、クラスタ構造更新部140は、上述で追加または更新された点データ、および、s104で検索された点データについて、逐次クラスタリング処理を実施し、ぞれぞれの点データに隣接する点データと所属するクラスタを導出する(s105)。
その後、クラスタ構造更新部140は、s105で導出した点データが所属するクラスタのラベル名と、s105で導出した点データに隣接する点データのDataIDおよび距離と、を再検証判定データ表113に記録し処理を終了する(s106)。
<データ分析装置:各部の詳細>
<点データ受信初期処理部>
本実施例において、データ分析装置100の点データ受信初期処理部120は、変更点データ受信部121、再検証判定データ計算部122、点データおよび再検証判定データ記録部123から構成される。
このうち変更点データ受信部121はセンサ5によるセンサデータに対する特徴量抽出や各種分析によって点データ生成装置6が得た点データを、通信装置107を介して点データ生成装置6から受信する。
また、再検証判定データ計算部122は、逐次クラスタリング処理を実施する際に、上述の点データ生成装置6から受信した点データに基づいて再検証処理を行うため、3種類のデータを再検証判定データとして計算する。そのうち1つは、データを一意に識別するID情報である。1つは、再度クラスタリング処理の対象にする必要があるか判定するためのデータである。もう1つは、再検証後にクラスタ構造に変化を与える条件である。これらのデータの具体例については後述する。
また、点データおよび再検証判定データ記録部123は、上述の点データ生成装置6から受信した点データと再検証判定データを、記憶装置101に記録する。
<再検証判定データ>
図5はクラスタリング方法としてDBSCANを採用した場合の再検証判定データ表113の具体例である。この再検証判定データ表113における各レコードは、再検証判定データとなる。こうした各レコード、すなわち再検証判定データにおいて、DataIDは点データを一意に識別するIDを示す。
また、コア判定およびコア条件値は、当該点データが、再度クラスタリング処理の対象にする必要があるか判定するためのデータである。このうちコア判定の値は、当該点データがクラスタを構成するコアポイントの場合「True」を、コアポイントでない場合には「False」となる。一方、コア条件値は、当該点データがコアポイントである条件を示す。具体的には、DataID=1の点データは、EPSが10以上であればコアポイントであり、EPSが10未満であればコアポイントでなくなる。N近傍データ群はこの点データに隣接するコアポイントのDataIDとこの点データとの距離をペアとしたペアデータを列挙する。ここで「隣接する」とは、この点データからEPS以内の距離に存在することである。
<再検証判定部>
本実施例におけるデータ分析装置100の再検証判定部130は、上述の再検証判定データ表113の各再検証判定データを用いて逐次クラスタリングを実施する際に、再検証が必要な点データを判定する。
この再検証判定部130は、初期条件値再計算部131と再検証点データ検索部132から構成される。このうち初期条件値再計算部131は、クラスタリングの初期条件値を再計算する。DBSCANではEPSを更新EPSとして再計算する。その具体的な処理フローは後述する。
また、再検証点データ検索部132では、上述の初期条件値再計算部131で計算された初期条件値を検索条件として、再検証する必要のある点データを検索する。この時、各点データに付与された再検証判定データにより検索条件との一致を判定する。具体的に、DBSCANの場合、更新EPSによりコアポイントでなくなる点データおよびコアポイントに変化する点データを検索する。例えば、EPSが18から17に更新された場合、図5の再検証判定データ表113のDataID=4の点データにおいて、更新EPSはコア条件値の18未満となり、コアポイントでなくなる。再検証点データ検索部132は、こうした点データを検索することとなる。また、EPSが18から25に更新された場合、DataID=5の点データにおいて更新EPSはコア条件値の25以上となり、コアポイントとなる。同様に、再検証点データ検索部132は、こうした点データを検索することとなる。
<初期条件値再計算部>
上述した再検証判定部130の初期条件値再計算部131では、図6に示す特徴量空間1に点データが追加、削除、および更新のいずれかがなされた場合、上述の初期条件値の計算を行う。図6の特徴量空間1で示すように、点データ6番が追加され、点データ5番が削除された場合、最も離れた点が点データ4番に更新され、次に離れた点が点データ6番となる。EPSはデータ6と再近傍との距離である17に更新されることになる。
図7にて、こうした初期条件値再計算部131が行うクラスタリング初期条件値の再計算フローについて説明する。この場合、初期条件値再計算部131は、点データの追加、更新、削除のいずれかの指示を入力装置105から受信する(s200)。
初期条件値再計算部131は、上述のs200にて受信した指示の該当処理が、追加または更新であれば(s201:YES)、処理をs203に進める。他方、該当処理が削除であれば(s201:NO)、初期条件値再計算部131は、処理をs202に進める。
続いて、初期条件値再計算部131は、追加または更新された点データからN番目に近いデータとの距離をN近傍距離として計算する(s203)。
その後、初期条件値再計算部131は、N近傍距離の値が近い2種類のデータを検索する(s204)。このs204において、初期条件値再計算部131は、s200で指示を受信した点データよりN近傍距離が小さく、かつ最も近いデータをN近傍距離類似データ1、s200で指示を受信した点データよりN近傍距離が大きく、かつ最も近いデータをN近傍距離類似データ2、とする。
また、初期条件値再計算部131は、図8に示す追加/更新時EPS更新ルール表1021(例えば、初期条件値再計算部131のプログラムが予め保持)を参照し、上述のN近傍距離類似データ1およびN近傍距離類似データ2が、コアポイント、エッジポイント、およびノイズポイントのいずれであるかによって、EPSを更新して処理を終了する(s205)。
一方、s202において、初期条件値再計算部131は、削除対象の点データがコアポイント、エッジポイント、およびノイズポイントのいずれの状態か取得する。その後、初期条件値再計算部131は、図9に示す削除時EPS更新ルール表1022(初期条件値再計算部131のプログラムが予め保持)を参照し、削除対象の点データの状態に応じてEPSを更新して処理を終了する(s206)。
<再検証点データ検索部>
初期条件値が再計算されEPSが更新EPSとなった場合、再検証点データ検索部132が、再検証の必要な点データを検索する。再検証が必要と判定されたデータは点データ再検証部141に送付され、点データ再検証部141が前記送付された点データの属性を更新する。この処理を図5、図10を参照して説明する。
再検証点データ検索部132は、更新EPSと更新前のEPSとを比較し(s300)、EPSが減少した場合と増加した場合とにおいて、再検証する必要のある点データを検索するものとする。
なお、更新によりEPSが減少した場合、すなわち更新前EPS>更新EPSとなった場合(s301:NO)、コアポイントでなくなる点データが存在する可能性がある。再検証点データ検索部132は、その点データを検索するため、図5の再検証判定データ表113においてコア判定が「True」かつ、コア条件値が更新EPSより大きい点データを探索する(s304)。図5の例ではDataID=4の点データが該当する。
一方、更新によりEPSが増加した場合、すなわち更新前EPS<更新EPSとなった場合(s301:YES)、新たにコアポイントとなる点データが存在する可能性がある。そのため、再検証点データ検索部132は、図5の再検証判定データ表113においてコア判定が「False」かつ、コア条件値が更新EPS以下の点データを探索する(s302)。再検証点データ検索部132は、こうして検索した点データの情報をクラスタ構造更新部140に送付し、クラスタ構造の更新を行うこととなる。
<クラスタ構造更新部>
また、クラスタ構造変更部140の点データ再検証部141は、上述のs302、s304により検索された点データ、すなわち再検証が必要な点データについて、当該点データがコアポイントか否かを再検証する。この再検証の結果、コアポイントでない点データについて、点データ再検証部141は、再検証判定データ表131の該当レコードにおいてコア判定を「False」に更新する(s305)。また、再検証の結果、コアポイントである点データについて、点データ再検証部141は、再検証判定データ表131の該当レコードにおいてコア判定を「True」に更新する(s303)。
その後、点データ再検証部141は、上述のコア判定に変更のあった該当点データの近傍点データとの関係性から、図5に示す、再検証判定データのN近傍データ群を更新する。具体的には、点データ再検証部141は、コア判定に変更があった点データ群の各点データから距離が更新EPS内のN近傍点データについて、コアポイントであるか探索し、当該N近傍点データがコアポイントであれば、そのDataIDと距離を計算する(s306)。またs306における点データ再検証部141は、当該DataIDと距離のペアをペアデータとし、図5の再検証判定データ表113に示す前記各点データに対応するN近傍データ群になければ追加する。
<再検証結果記録部>
ここまでの点データ再検証部141と点データ近傍再検証部142における処理により、再検証された点データの属性と再検証判定データが更新される。この更新結果は、再検証結果記録部144が記録する。これにより、再びデータが追加、削除、更新された場合に、最新の点データの属性および再検証判定データに基づいて再検証判定およびクラスタ構造の更新を実行できる。
<クラスタ構造変更部>
クラスタ構造変更部143では、点データ再検証部141および点データ近傍再検証部142にて更新された各点データの属性に応じてクラスタ構造を変更する。図11、図12の表および図13、図14の処理フローを参照して説明する。
上述の再検証後に点データがノイズポイントまたはエッジポイントとなった場合、図5の再検証判定データ表113で示すN近傍データ群がコアポイントか否かによってクラスタは消滅、縮小、分割の3通りの変更が起こりうる。上述の再検証後に点データがコアポイントと判定された場合、クラスタは生成、拡張、結合の3通りの変更が起こりうる。以降、図5の再検証判定データ表113で示すN近傍データ群がコアポイントである場合を近傍コアポイントと呼ぶこととする。以下では、図13、図14のクラスタ構造変更フローを参照してそれぞれ説明する。
<図13処理フロー>
まず、クラスタ構造変更部143は、属性情報が変更された点データを取得する(s400)。その後、コアポイントでなくなる点データが存在するか判定し(s401)、当該点データが存在すれば(s401:YES)、クラスタ構造変更部143は、処理をs403へ進める、他方、当該点データが存在しなければ(s401:NO)、クラスタ構造変更部143は、図14の処理フローに進む(s402)。
また、クラスタ構造変更部143は、コアポイントでなくなる点データの近傍コアポイントの存在有無を確認する(s403)。この判定の結果、コアポイントでなくなる点データの近傍コアポイントが存在すれば(s404:YES)、クラスタ構造変更部143は、処理をs405に進める。他方、判定の結果、コアポイントでなくなる点データの近傍コアポイントが存在しなければ(s404:NO)、クラスタ構造変更部143は、処理をs406に進める。
続いて、クラスタ構造変更部143は、複数の近傍コアポイント間の距離が更新EPSより大か計算し(s405)、その結果、複数の近傍コアポイント間の距離が更新EPSより大であれば(s407:YES)、処理をs408に進める。
他方、複数の近傍コアポイント間の距離が更新EPSより大でなければ(s407:NO)、クラスタ構造変更部143は、処理をs409に進める。
次に、クラスタ構造変更部143は、上述の点データと対応づいたクラスタIDとラベルをクラスタラベル表1121から削除し(s406)、処理をs409に進める。
また、クラスタ構造変更部143は、クラスタ所属表1111から、コアポイントでなくなる点データを削除し(s409)、処理を終了する。
<図14処理フロー>
図14の処理フローは、上述の図13のフローにおけるs402の結果を受けて実施される。この場合まず、クラスタ構造変更部143は、コアポイントとなる点データの近傍コアポイントの存在有無を確認する(s500)。
上述の確認の結果、近傍コアポイントが存在すれば(s501:YES)、クラスタ構造変更部143は、処理をs502に進める。他方、近傍コアポイントが存在しなければ(s501:NO)、クラスタ構造変更部143は、処理をs506に進める。
次に、クラスタ構造変更部143は、複数の近傍コアポイントの所属クラスタを示すクラスタIDが複数種類存在するか確認する(s502)。この確認の結果、該当クラスタIDが複数存在すれば(s503:YES)、クラスタ構造変更部143は、処理をs504に進める。他方、該当クラスタIDが複数存在しなければ(s503:NO)、クラスタ構造変更部143は、処理をs505に進める。
また、クラスタ構造変更部143は、複数のクラスタIDに対応するラベルを1つの名前にマージしてクラスタラベル表1121を更新し(s504)、処理をs505に進める。
次に、クラスタ構造変更部143は、近傍コアポイントと同じクラスタIDをクラスタ所属表1111に追加し(s505)、処理を終了する。
また、クラスタ構造変更部143は、新しいクラスタが発生したとしてクラスタIDとラベルを新規作成してクラスタラベル表1121とクラスタ所属表1111に追加し(s506)、処理を終了する。
<クラスタ構造データ記録部>
なお、クラスタ構造更新部140のクラスタ構造データ記録部145では、ここまでの各点データの所属を図11のクラスタ所属表1111へ、各クラスタのラベル名を図12のクラスタラベル表1121に記録する。
まず、図11に示すクラスタ所属表1111への記録について説明する。各点データには自身が所属するクラスタのID情報(ClusterID)を持ち、各IDは図12のクラスタラベル表1121に示すラベルと対応する。また、クラスタ構造変更部143において、点データがコアポイントまたはエッジポイントとなった場合には所属するクラスタのClusterIDを点データのDataIDとともに図11のクラスタ所属表1111に追加する。一方、点データがノイズポイントとなった場合には、クラスタ構造変更部143において、所属するクラスタが存在しないとして、該当点データに対応するDataIDの行を図11のクラスタ所属表1111から削除する。
次に図12に示すクラスタラベル表1121への記録について説明する。クラスタラベル表1121への記録は、クラスタ構造の生成、消滅、結合、分割の4つの場合に実施する。このうちクラスタ構造の生成の場合、クラスタ構造データ記録部145は、クラスタラベル表1121において、一意に識別可能なClusterIDを新たに生成し、当該クラスタ構造に関してラベル名を付与する。一方、クラスタ構造の消滅の場合、クラスタ構造データ記録部145は、クラスタラベル表1121において、該当するClusterIDとラベル名を削除する。また、クラスタ構造の結合の場合、クラスタ構造データ記録部145は、クラスタラベル表1121において、結合対象の複数のClusterIDと紐づくラベル名全てを結合後の1つのラベル名に更新する。また、クラスタ構造の分割の場合、クラスタ構造データ記録部145は、クラスタラベル表1121において、分割対象となったクラスタIDに分割中を示す情報を付与する。その後、クラスタ構造データ記録部145は、クラスタ所属表1111を参照して、各点データが分割後のどちらのクラスタに所属するかを調査し、図11に示すクラスタ所属表1111のClusterIDを、新たに生成した一意に識別可能なクラスタIDに更新し、図12のクラスタラベル表1121には新たなクラスタIDとラベルの組合せを追加する。こうした更新後、クラスタ構造データ記録部145は、クラスタラベル表1121において、分割中を示す情報が付与されたクラスタIDとラベル名の組合せの情報を削除する。なお、この分割時の処理はクラスタ構造変更部143の処理中に実施してもよいし、クラスタ構造変更部143の処理が終了した後に次の新たな点データを受信して次のクラスタ構造変更の処理を実施している間に実施してもよい。
−−−実施例2:データ管理者−−−
実施例1においては、図3で示したように、データ分析装置100が通信装置107を介して点データを受信する構成となっていた。一方、実施例2では、図15に示したデータ管理者向けデータ分析装置100に、データ管理者が入力装置105を介して記憶装置101に記録された点データの追加、更新、削除を行う構成を想定する。
この場合のデータ管理者は、センサデータ取得対象の機器の更新や経年劣化により、古くなったデータを削除することや、センサの不具合により間違って記録されたデータを更新することも可能となる。さらに、これら点データの追加、更新、削除と、それに伴うクラスタ構造の変化を、データ管理画面(後述)により確認することができる。
図15のデータ管理者向けデータ分析装置100では、図3のデータ分析装置に更新クラスタ構造情報出力部150を追加した構成となっている。
この更新クラスタ構造情報出力部150は、記憶装置101に格納された点データ110より計算されたクラスタ構造を描画するクラスタ構造描画部151、前記点データの追加、更新、削除の日時を表示する点データ履歴表示部152、および、クラスタリング処理を実施する際に初期条件値となる各種パラメータを出力する初期条件値出力部153を備える。また、記憶装置101では点データ履歴115を格納する。
以下、図16のデータ管理画面1000の例を参照して、上述のデータ管理者がクラスタ構造を構成する点データを追加、更新、削除の操作を入力装置105で行い、これに応じてデータ管理者向けデータ分析装置100がクラスタ構造の形状を更新する例を示す。
データ管理者は、図16に示すデータ管理画面1000を表示装置106にて閲覧し、入力装置105を操作して、管理したいデータ種別をクラスタリング対象データ選択欄1030より選択する。また、データ管理者は、上述で選択したデータ種別に対して実行済みのクラスタリング処理を、クラスタリング手法欄1031で検索して検索ボタン1001を押下する。
この押下を受けたデータ管理者向けデータ分析装置100は、クラスタ構造描画画面1002にて、クラスタ構造1003を表示するとともに、クラスタリング処理の初期条件値リスト1004を表示させる。また、データ管理者向けデータ分析装置100は、データ管理画面1000の下部に、クラスタリング対象の点データの一覧である、点データリスト1005を表示する。この点データリスト1005は、点データを一意に識別するDataID、点データを生成したセンサを示すSensorID、所属するクラスタのラベル名を示すClusterLabel、該当点データが記録された時刻を示すTimeStampから構成される。
データ管理者は、入力装置105を操作して、上述の点データリスト1005における、上述のDataID、SensorID、ClusterLabel、TimeStampの各項目を、該当各項目に関する絞り込み用インターフェイス1006で選択し、該当項目の条件値を絞込条件欄1007に設定する。こうした設定を行うことで、点データリスト1005で表示されるデータを絞り込むことができる。
また、上述のデータ管理者が、入力装置105を操作して追加ボタン1008を押下することで、例えば、点データの入力インターフェイスを呼び出して、これを介して点データの追加を行うことができるものとする。さらに、データ管理者が、点データリスト1005に付随するチェックボックス1009をチェックして更新ボタン1010または削除ボタン1011を押下することで、該当点データの更新または削除の各操作を行うことができるものとする。
データ管理者は、ここまでの点データの追加、更新、削除といった操作を実施した後、更新ボタン1012を押下することで、実施例1に記載した初期条件値の再計算と逐次クラスタリング処理をデータ管理者向けデータ分析装置100に指示する。データ管理者向けデータ分析装置100は、この指示に応じて該当処理を実行し、その結果をデータ管理画面1000に再描画する。
データ管理者が点データリスト1005に点データの追加操作を行った場合の、データ管理者向けデータ分析装置100による再描画結果の例を、図17のデータ管理画面1100に示す。点データを追加、更新、削除した場合、データ分析装置100による処理(実施例1)により、クラスタリング処理の初期条件値およびクラスタ構造が更新されることになる。
DBSCANを例とした場合、初期条件値リスト1004において、図16のデータ管理画面1000ではEPSが「18」であったが、点データ追加に伴い、図17のデータ管理画面1100では「17」に更新されている。また、それに応じてクラスタ構造も更新されている。図17に示すデータ管理画面1100の例では、クラスタ構造描画画面1002にて、破線がEPS更新前のクラスタ構造を示し、灰色部分はEPSが「17」となった場合のクラスタ構造を示す。
この場合のクラスタ構造において、「TypeA」のラベルが付与されたクラスタは、EPSが小さくなることで、該当する点データ(1701)の周囲にMinPTS以上の点データが存在しなくなったためクラスタが縮小している。
このようにしてデータ管理者は、データ管理画面1100を用いて点データの追加、更新、削除の各操作を行い、その結果であるクラスタ構造の変化を全データの再計算を待たずに、当該データ管理画面1100にて確認することができる。
なお、データ管理者が更新ボタン1012を押下した際の処理結果を一時的なものとし、データ管理者が結果を確認した後に確定させる確定ボタンを、データ管理画面1000,1100に別途設けるとしてもよい。さらに、点データリスト1005とクラスタ構造描画画面1002との対応関係を示すために、対応関係のある各データリストと各点データに、所定の対応色をつけて描画するとてもよい。また、TimeStampが特定時刻より前のデータや後のデータに対して新旧を示す所定色をつけて描画するとしてもよい。
−−−実施例3:階層型のクラスタリング−−−
実施例1においては、データ分析装置100が密度ベースのDBSCANによるクラスタリングを逐次実行する構成となっていた。一方、実施例3では、データ分析装置100が、階層型クラスタリングを逐次実行する例について示す。
階層型のクラスタリングでは、クラスタ間の類似度を計算し、最も類似しているクラスタを併合していき、全てのクラスタが1つのクラスタになるまでその処理を繰り返すことになる。この際、点データの追加、更新、削除によりクラスタ階層を構成する各階層のクラスタの類似度が変化することとなる。
そこで、この類似度が変化するクラスタを絞り込んで計算量を削減するため、データ分析装置1000は、再検証判定データ表113の代わりに、図18に示す階層型向け再検証判定データ表1131を備えるものとする。
この階層型向け再検証判定データ表1131には、各点データごとに1行の再検証判定データを保持させる。DataIDは点データを一意に示すID、所属クラスタは点データが所属するクラスタである。また、最近傍クラスタは、所属クラスタが最も類似するクラスタとその距離を示す。これにより、どのクラスタと併合されているかを表現することができる。また、隣接クラスタは、同一階層に存在するクラスタとその類似度を示す距離のリストを示す。
点データが追加、更新、削除された場合には、データ分析装置1000は、当該点データにより変化が発生する所属クラスタを探索し、当該所属クラスタと最近傍クラスタとの距離を計算し直す。これにより、所属クラスタと最近傍クラスタとの距離が大きくなれば、データ分析装置100は、隣接クラスタより最も類似したクラスタから再併合先のクラスタを探索するものとする。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
本実施形態のデータ分析装置によれば点データの追加、更新、削除の発生に際し、データ分布の変化によるクラスタリング初期条件値の再計算結果を反映したクラスタ構造の更新を逐次クラスタリングにより実現できる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ分析装置において、前記演算装置は、前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが1つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割するものである、としてもよい。
これによれば、点データ追加に伴うEPS等の初期条件値の更新に応じた、既存クラスタの消滅、縮小、分割といった従来では対応出来なかったクラスタリングが効率的かつ的確に可能となる。
また、本実施形態のデータ分析装置において、前記演算装置は、既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合するものである、としてもよい。
これによれば、点データ追加に伴うEPS等の初期条件値の更新に応じた、既存クラスタの生成、拡大、結合といったクラスタリングが、より効率的かつ的確に可能となる。
また、本実施形態のデータ分析装置において、前記演算装置は、所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、を更に実行するものであるとしてもよい。
これによれば、本実施形態におけるEPS等の初期条件値の更新、および、これに伴うクラスタ更新、の内容をユーザに対して視覚的に明示し、当該ユーザの認否等の適宜な意思を確認、反映させることが可能となる。
また、本実施形態のデータ分析装置において、前記演算装置は、階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定するものである、としてもよい。
これによれば、本実施形態のデータ分析手法を、非階層型のクラスタリングのみならず、階層型クラスタリングにも適用可能となる。
また、本実施形態のデータ分析方法において、前記データ分析装置が前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが1つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割する、としてもよい。
また、本実施形態のデータ分析方法において、前記データ分析装置が、既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合する、としてもよい。
また、本実施形態のデータ分析方法において、前記データ分析装置が、所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、を更に実行するとしてもよい。
また、本実施形態のデータ分析方法において、前記データ分析装置が、階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定するとしてもよい。
1 特徴量空間
2 クラスタ構造
5 センサ
6 点データ生成装置
10 ネットワーク
100 データ分析装置
101 記憶装置
102 プログラム
1021 追加/更新時EPS更新ルール表
1022 削除時EPS更新ルール表
103 メモリ
104 CPU(演算装置)
105 入力装置
106 表示装置
107 通信装置
110 点データ
111 クラスタ所属データ
1111 クラスタ所属表
1121 クラスタラベル表
112 ラベルデータ
113 再検証判定データ表
1131 階層型向け再検証判定データ表
114 初期条件値データ
115 点データ履歴
120 点データ受信初期処理部
121 変更点データ受信部
122 再検証判定データ計算部
123 点データおよび再検証判定データ記録部
130 再検証判定部
131 初期条件値再計算部
132 再検証点データ検索部
140 クラスタ構造更新部
141 点データ再検証部
142 点データ近傍再検証部
143 クラスタ構造変更部
144 再検証結果記録部
145 クラスタ構造データ記録部
150 更新クラスタ構造情報出力部
151 クラスタ構造描画部
152 点データ履歴表示部
153 初期条件値出力部
1000、1100 データ管理画面

Claims (10)

  1. 点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置であって、
    前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、当該再検証点データに応じて所定のクラスタリング処理を実行する演算装置を備えるデータ分析装置。
  2. 前記演算装置は、
    前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが1つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割するものである、
    ことを特徴とする請求項1に記載のデータ分析装置。
  3. 前記演算装置は、
    既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合するものである、
    ことを特徴とする請求項1に記載のデータ分析装置。
  4. 前記演算装置は、
    所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、
    前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、
    を更に実行するものであることを特徴とする請求項1に記載のデータ分析装置。
  5. 前記演算装置は、
    階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定するものである、
    ことを特徴とする請求項1に記載のデータ分析装置。
  6. 点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置が、
    前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、
    当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、
    当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、
    当該再検証点データに応じて所定のクラスタリング処理を実行する、
    ことを特徴とするデータ分析方法。
  7. 前記データ装置が、
    前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが1つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割する、
    ことを特徴とする請求項に記載のデータ分析方法。
  8. 前記データ分析装置が、
    既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合する、
    ことを特徴とする請求項6に記載のデータ分析方法。
  9. 前記データ分析装置が、
    所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、
    前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、
    を更に実行することを特徴とする請求項6に記載のデータ分析方法。
  10. 前記データ分析装置が、
    階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定する、
    ことを特徴とする請求項6に記載のデータ分析方法。
JP2018544285A 2017-03-27 2017-03-27 データ分析装置およびデータ分析方法 Active JP6668494B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/012439 WO2018179065A1 (ja) 2017-03-27 2017-03-27 データ分析装置およびデータ分析方法

Publications (2)

Publication Number Publication Date
JPWO2018179065A1 JPWO2018179065A1 (ja) 2019-04-11
JP6668494B2 true JP6668494B2 (ja) 2020-03-18

Family

ID=63674731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018544285A Active JP6668494B2 (ja) 2017-03-27 2017-03-27 データ分析装置およびデータ分析方法

Country Status (3)

Country Link
US (1) US11328024B2 (ja)
JP (1) JP6668494B2 (ja)
WO (1) WO2018179065A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460498A (zh) * 2018-11-07 2019-03-12 广州小天软件有限公司 一种数据核对方法及装置
US11556566B1 (en) * 2022-03-31 2023-01-17 Intuit Inc. Processing of computer readable tables in a datalake

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4559448B2 (ja) * 2007-05-17 2010-10-06 日本電信電話株式会社 文書群組合せ装置
US7979426B2 (en) * 2008-06-05 2011-07-12 Samsung Electronics Co., Ltd. Clustering-based interest computation
US8363961B1 (en) * 2008-10-14 2013-01-29 Adobe Systems Incorporated Clustering techniques for large, high-dimensionality data sets
JP5153677B2 (ja) * 2009-02-10 2013-02-27 日本電信電話株式会社 逐次クラスタリング装置とその方法及びプログラム
JP2014095967A (ja) * 2012-11-08 2014-05-22 Sony Corp 情報処理装置、情報処理方法およびプログラム
US9251419B2 (en) * 2013-02-07 2016-02-02 Digitalglobe, Inc. Automated metric information network
US9710493B2 (en) * 2013-03-08 2017-07-18 Microsoft Technology Licensing, Llc Approximate K-means via cluster closures
US9280593B1 (en) * 2013-07-24 2016-03-08 Amazon Technologies, Inc. Centroid detection for clustering
US20160292578A1 (en) * 2015-04-03 2016-10-06 BigML, Inc. Predictive modeling of data clusters
JP6374843B2 (ja) * 2015-08-04 2018-08-15 日本電信電話株式会社 滞留地抽出装置、方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2018179065A1 (ja) 2019-04-11
US11328024B2 (en) 2022-05-10
WO2018179065A1 (ja) 2018-10-04
US20210011949A1 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
JP6668494B2 (ja) データ分析装置およびデータ分析方法
JP6242540B1 (ja) データ変換システム及びデータ変換方法
US20140136155A1 (en) Analyzing hardware designs based on component re-use
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
JP5681804B2 (ja) リスク判定方法及びリスク判定サーバ
JP2016014944A (ja) 相関ルール分析装置および相関ルール分析方法
CN111382925A (zh) 生产实绩数据分析装置
US10114916B1 (en) Method and system to accelerate visualization of waveform data
JP6695847B2 (ja) ソフトウェア部品管理システム、計算機
JP7246301B2 (ja) プログラム開発支援システム及びプログラム開発支援方法
WO2017163342A1 (ja) 計算機システム及びデータの分類方法
JP7328126B2 (ja) 生産シミュレーション装置及び生産シミュレーション方法
CN114881521A (zh) 业务评估方法、装置、电子设备以及存储介质
JP6157375B2 (ja) 操作手順フロー更新装置、方法及びプログラム
JP6861176B2 (ja) プロジェクト見積り支援方法およびプロジェクト見積り支援装置
WO2024090463A1 (ja) ソフトウェア構成管理データ構造、ソフトウェア構成管理データ作成支援装置、ソフトウェア構成管理データ作成支援方法
JP5923052B2 (ja) 設計変更影響予測装置、方法、およびプログラム
KR102417677B1 (ko) 회로 검증을 위한 유사 회로 검색 장치 및 방법
JP2019046243A (ja) 設計支援装置、および、設計支援方法
JP7391740B2 (ja) 影響特定支援装置及び影響特定支援方法
JP5197128B2 (ja) 依存関係推定装置及び依存関係推定プログラム及び記録媒体
JP6777903B2 (ja) 探索装置、探索方法および探索プログラム
JP2007316853A (ja) プロジェクトの管理方法及びシステム
US20140173540A1 (en) Circuit design support method, circuit design support apparatus, and computer product
JP6603637B2 (ja) ユーザインタフェース接続装置、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180821

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200226

R150 Certificate of patent or registration of utility model

Ref document number: 6668494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150