JP6668494B2 - データ分析装置およびデータ分析方法 - Google Patents
データ分析装置およびデータ分析方法 Download PDFInfo
- Publication number
- JP6668494B2 JP6668494B2 JP2018544285A JP2018544285A JP6668494B2 JP 6668494 B2 JP6668494 B2 JP 6668494B2 JP 2018544285 A JP2018544285 A JP 2018544285A JP 2018544285 A JP2018544285 A JP 2018544285A JP 6668494 B2 JP6668494 B2 JP 6668494B2
- Authority
- JP
- Japan
- Prior art keywords
- point data
- data
- cluster
- verification
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下に本発明の実施形態について図面を用いて詳細に説明する。本実施例では、設備に設置したセンサが生成するセンサデータより特徴量を抽出し、この特徴量の値を分析対象の点データとして逐次クラスタリングする状況を想定する。こうした状況に本発明のデータ分析方法を適用すれば、上述の設備の更新や経年劣化に応じ、データ分析におけるクラスタ構造を逐次更新することが可能となる。例えばクラスタを用いた異常予兆判定の精度を向上させることができる。
図1にDBSCAN実行結果の例を示す。特徴量空間1において実線の円が点データを示し、破線の円の集合がDBSCANの結果計算されたクラスタ構造2(同一クラスタとする領域)である。DBSCANでは初期条件値としてEPSとMinPTSがあり、次のアルゴリズム従ってクラスタ構造2を決定する。
ここまでで示したDBSCANと初期条件値EPSの決定方法を例として、以降ではセンサデータの逐次クラスタリングを実現するデータ分析装置の例を説明する。本実施例におけるデータ分析装置の構成例を図3に示す。
ここで、本実施例1におけるデータ分析方法のフロー例について説明する。図4は、図3に示すデータ分析装置100が点データを受信した際に初期条件値の再計算を行い、必要に応じてクラスタ構造を更新する処理フローの例である。当該処理フローの概要を示した後、各処理部の詳細を説明するものとする。
<点データ受信初期処理部>
本実施例において、データ分析装置100の点データ受信初期処理部120は、変更点データ受信部121、再検証判定データ計算部122、点データおよび再検証判定データ記録部123から構成される。
図5はクラスタリング方法としてDBSCANを採用した場合の再検証判定データ表113の具体例である。この再検証判定データ表113における各レコードは、再検証判定データとなる。こうした各レコード、すなわち再検証判定データにおいて、DataIDは点データを一意に識別するIDを示す。
本実施例におけるデータ分析装置100の再検証判定部130は、上述の再検証判定データ表113の各再検証判定データを用いて逐次クラスタリングを実施する際に、再検証が必要な点データを判定する。
上述した再検証判定部130の初期条件値再計算部131では、図6に示す特徴量空間1に点データが追加、削除、および更新のいずれかがなされた場合、上述の初期条件値の計算を行う。図6の特徴量空間1で示すように、点データ6番が追加され、点データ5番が削除された場合、最も離れた点が点データ4番に更新され、次に離れた点が点データ6番となる。EPSはデータ6と再近傍との距離である17に更新されることになる。
初期条件値が再計算されEPSが更新EPSとなった場合、再検証点データ検索部132が、再検証の必要な点データを検索する。再検証が必要と判定されたデータは点データ再検証部141に送付され、点データ再検証部141が前記送付された点データの属性を更新する。この処理を図5、図10を参照して説明する。
また、クラスタ構造変更部140の点データ再検証部141は、上述のs302、s304により検索された点データ、すなわち再検証が必要な点データについて、当該点データがコアポイントか否かを再検証する。この再検証の結果、コアポイントでない点データについて、点データ再検証部141は、再検証判定データ表131の該当レコードにおいてコア判定を「False」に更新する(s305)。また、再検証の結果、コアポイントである点データについて、点データ再検証部141は、再検証判定データ表131の該当レコードにおいてコア判定を「True」に更新する(s303)。
ここまでの点データ再検証部141と点データ近傍再検証部142における処理により、再検証された点データの属性と再検証判定データが更新される。この更新結果は、再検証結果記録部144が記録する。これにより、再びデータが追加、削除、更新された場合に、最新の点データの属性および再検証判定データに基づいて再検証判定およびクラスタ構造の更新を実行できる。
クラスタ構造変更部143では、点データ再検証部141および点データ近傍再検証部142にて更新された各点データの属性に応じてクラスタ構造を変更する。図11、図12の表および図13、図14の処理フローを参照して説明する。
まず、クラスタ構造変更部143は、属性情報が変更された点データを取得する(s400)。その後、コアポイントでなくなる点データが存在するか判定し(s401)、当該点データが存在すれば(s401:YES)、クラスタ構造変更部143は、処理をs403へ進める、他方、当該点データが存在しなければ(s401:NO)、クラスタ構造変更部143は、図14の処理フローに進む(s402)。
図14の処理フローは、上述の図13のフローにおけるs402の結果を受けて実施される。この場合まず、クラスタ構造変更部143は、コアポイントとなる点データの近傍コアポイントの存在有無を確認する(s500)。
なお、クラスタ構造更新部140のクラスタ構造データ記録部145では、ここまでの各点データの所属を図11のクラスタ所属表1111へ、各クラスタのラベル名を図12のクラスタラベル表1121に記録する。
実施例1においては、図3で示したように、データ分析装置100が通信装置107を介して点データを受信する構成となっていた。一方、実施例2では、図15に示したデータ管理者向けデータ分析装置100に、データ管理者が入力装置105を介して記憶装置101に記録された点データの追加、更新、削除を行う構成を想定する。
実施例1においては、データ分析装置100が密度ベースのDBSCANによるクラスタリングを逐次実行する構成となっていた。一方、実施例3では、データ分析装置100が、階層型クラスタリングを逐次実行する例について示す。
2 クラスタ構造
5 センサ
6 点データ生成装置
10 ネットワーク
100 データ分析装置
101 記憶装置
102 プログラム
1021 追加/更新時EPS更新ルール表
1022 削除時EPS更新ルール表
103 メモリ
104 CPU(演算装置)
105 入力装置
106 表示装置
107 通信装置
110 点データ
111 クラスタ所属データ
1111 クラスタ所属表
1121 クラスタラベル表
112 ラベルデータ
113 再検証判定データ表
1131 階層型向け再検証判定データ表
114 初期条件値データ
115 点データ履歴
120 点データ受信初期処理部
121 変更点データ受信部
122 再検証判定データ計算部
123 点データおよび再検証判定データ記録部
130 再検証判定部
131 初期条件値再計算部
132 再検証点データ検索部
140 クラスタ構造更新部
141 点データ再検証部
142 点データ近傍再検証部
143 クラスタ構造変更部
144 再検証結果記録部
145 クラスタ構造データ記録部
150 更新クラスタ構造情報出力部
151 クラスタ構造描画部
152 点データ履歴表示部
153 初期条件値出力部
1000、1100 データ管理画面
Claims (10)
- 点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置であって、
前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、当該再検証点データに応じて所定のクラスタリング処理を実行する演算装置を備えるデータ分析装置。 - 前記演算装置は、
前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが1つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割するものである、
ことを特徴とする請求項1に記載のデータ分析装置。 - 前記演算装置は、
既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合するものである、
ことを特徴とする請求項1に記載のデータ分析装置。 - 前記演算装置は、
所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、
前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、
を更に実行するものであることを特徴とする請求項1に記載のデータ分析装置。 - 前記演算装置は、
階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定するものである、
ことを特徴とする請求項1に記載のデータ分析装置。 - 点データ群から計算された既存クラスタに対する点データの追加に伴い、クラスタ構造を更新する逐次クラスタリングを実施するデータ分析装置が、
前記既存クラスタの点データ群の各点データについて、クラスタのコアか否か所定アルゴリズムで判定して所定の再検証判定データを計算し、
当該再検証判定データに基づいて、クラスタリングの初期条件値を再計算し、
当該再計算で得た更新後の初期条件値に基づき、前記追加がなされた点データ群より、前記点データの追加によってコアでなくなる又は新たにコアとなる点データたる再検証点データを特定し、
当該再検証点データに応じて所定のクラスタリング処理を実行する、
ことを特徴とするデータ分析方法。 - 前記データ装置が、
前記再検証点データを中心としていた前記既存クラスタにおいて、当該再検証点データとは別の他コアたる近傍コア点データを検索し、当該検索の結果、前記近傍コア点データが存在しなければ、前記再検証点データを中心としていた前記既存クラスタを消滅させ、前記近傍コア点データが1つ存在し、かつ、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にあれば、前記近傍コア点データを含む既存クラスタを縮小させ、前記近傍コア点データが複数存在し、かつ、前記再検証点データおよび前記近傍コア点データ各々が所定の近傍関係でなければ、対応する各クラスタを分割する、
ことを特徴とする請求項6に記載のデータ分析方法。 - 前記データ分析装置が、
既存クラスタに含まれなかった点データたる再検証点データが、前記再計算で得た更新後の初期条件値に基づく更新後クラスタに含まれる場合、当該更新後クラスタに含まれる近傍コア点データを検索し、当該検索の結果、近傍コア点データが存在しなかった場合、前記既存クラスタに含まれなかった点データたる再検証点データを中心にしたクラスタを生成し、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にある場合、対応するクラスタを拡大させ、近傍コア点データが存在し、前記再検証点データおよび前記近傍コア点データとが所定の近傍関係にない場合、対応するクラスタ同士を結合する、
ことを特徴とする請求項6に記載のデータ分析方法。 - 前記データ分析装置が、
所定の出力装置にデータ管理画面を表示させ、前記データ管理画面にて受けたユーザ指示に応じて、クラスタリング対象の点データの追加、更新、および削除のいずれかの所定処理を行い、当該点データの追加、更新、および削除のいずれかに伴う再計算による前記初期条件値の変化および当該初期条件値の変化に応じたクラスタ構造の変化の各結果を、前記出力装置にて表示する処理と、
前記表示した前記各結果を確定または中止するユーザ指示を受けた場合、前記各結果が示す初期条件値およびクラスタ構造を、前記点データの追加、更新、および削除のいずれかの処理の前の初期条件値およびクラスタ構造に戻す処理と、
を更に実行することを特徴とする請求項6に記載のデータ分析方法。 - 前記データ分析装置が、
階層型クラスタリングのために、各点データが所属する所属クラスタ、所属クラスタが併合された最も類似した最近傍クラスタ、同一階層に存在する隣接クラスタを再検証判定データとして計算して所定の記憶装置にて保持し、点データの追加、更新、および削除のいずれかがなされた場合に、前記点データによる変化が発生するクラスタを前記再検証判定データにより特定し、前記クラスタの再併合先を再検証判定データの隣接クラスタから特定する、
ことを特徴とする請求項6に記載のデータ分析方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/012439 WO2018179065A1 (ja) | 2017-03-27 | 2017-03-27 | データ分析装置およびデータ分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018179065A1 JPWO2018179065A1 (ja) | 2019-04-11 |
JP6668494B2 true JP6668494B2 (ja) | 2020-03-18 |
Family
ID=63674731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018544285A Active JP6668494B2 (ja) | 2017-03-27 | 2017-03-27 | データ分析装置およびデータ分析方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11328024B2 (ja) |
JP (1) | JP6668494B2 (ja) |
WO (1) | WO2018179065A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460498A (zh) * | 2018-11-07 | 2019-03-12 | 广州小天软件有限公司 | 一种数据核对方法及装置 |
US11556566B1 (en) * | 2022-03-31 | 2023-01-17 | Intuit Inc. | Processing of computer readable tables in a datalake |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4559448B2 (ja) * | 2007-05-17 | 2010-10-06 | 日本電信電話株式会社 | 文書群組合せ装置 |
US7979426B2 (en) * | 2008-06-05 | 2011-07-12 | Samsung Electronics Co., Ltd. | Clustering-based interest computation |
US8363961B1 (en) * | 2008-10-14 | 2013-01-29 | Adobe Systems Incorporated | Clustering techniques for large, high-dimensionality data sets |
JP5153677B2 (ja) * | 2009-02-10 | 2013-02-27 | 日本電信電話株式会社 | 逐次クラスタリング装置とその方法及びプログラム |
JP2014095967A (ja) * | 2012-11-08 | 2014-05-22 | Sony Corp | 情報処理装置、情報処理方法およびプログラム |
US9251419B2 (en) * | 2013-02-07 | 2016-02-02 | Digitalglobe, Inc. | Automated metric information network |
US9710493B2 (en) * | 2013-03-08 | 2017-07-18 | Microsoft Technology Licensing, Llc | Approximate K-means via cluster closures |
US9280593B1 (en) * | 2013-07-24 | 2016-03-08 | Amazon Technologies, Inc. | Centroid detection for clustering |
US20160292578A1 (en) * | 2015-04-03 | 2016-10-06 | BigML, Inc. | Predictive modeling of data clusters |
JP6374843B2 (ja) * | 2015-08-04 | 2018-08-15 | 日本電信電話株式会社 | 滞留地抽出装置、方法、及びプログラム |
-
2017
- 2017-03-27 US US16/083,682 patent/US11328024B2/en active Active
- 2017-03-27 JP JP2018544285A patent/JP6668494B2/ja active Active
- 2017-03-27 WO PCT/JP2017/012439 patent/WO2018179065A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JPWO2018179065A1 (ja) | 2019-04-11 |
US11328024B2 (en) | 2022-05-10 |
WO2018179065A1 (ja) | 2018-10-04 |
US20210011949A1 (en) | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6668494B2 (ja) | データ分析装置およびデータ分析方法 | |
JP6242540B1 (ja) | データ変換システム及びデータ変換方法 | |
US20140136155A1 (en) | Analyzing hardware designs based on component re-use | |
CN115329011A (zh) | 数据模型的构建方法、数据查询的方法、装置及存储介质 | |
JP5681804B2 (ja) | リスク判定方法及びリスク判定サーバ | |
JP2016014944A (ja) | 相関ルール分析装置および相関ルール分析方法 | |
CN111382925A (zh) | 生产实绩数据分析装置 | |
US10114916B1 (en) | Method and system to accelerate visualization of waveform data | |
JP6695847B2 (ja) | ソフトウェア部品管理システム、計算機 | |
JP7246301B2 (ja) | プログラム開発支援システム及びプログラム開発支援方法 | |
WO2017163342A1 (ja) | 計算機システム及びデータの分類方法 | |
JP7328126B2 (ja) | 生産シミュレーション装置及び生産シミュレーション方法 | |
CN114881521A (zh) | 业务评估方法、装置、电子设备以及存储介质 | |
JP6157375B2 (ja) | 操作手順フロー更新装置、方法及びプログラム | |
JP6861176B2 (ja) | プロジェクト見積り支援方法およびプロジェクト見積り支援装置 | |
WO2024090463A1 (ja) | ソフトウェア構成管理データ構造、ソフトウェア構成管理データ作成支援装置、ソフトウェア構成管理データ作成支援方法 | |
JP5923052B2 (ja) | 設計変更影響予測装置、方法、およびプログラム | |
KR102417677B1 (ko) | 회로 검증을 위한 유사 회로 검색 장치 및 방법 | |
JP2019046243A (ja) | 設計支援装置、および、設計支援方法 | |
JP7391740B2 (ja) | 影響特定支援装置及び影響特定支援方法 | |
JP5197128B2 (ja) | 依存関係推定装置及び依存関係推定プログラム及び記録媒体 | |
JP6777903B2 (ja) | 探索装置、探索方法および探索プログラム | |
JP2007316853A (ja) | プロジェクトの管理方法及びシステム | |
US20140173540A1 (en) | Circuit design support method, circuit design support apparatus, and computer product | |
JP6603637B2 (ja) | ユーザインタフェース接続装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180821 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6668494 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |