JP6852004B2 - データ解析システム、データ解析方法、及びプログラム - Google Patents

データ解析システム、データ解析方法、及びプログラム Download PDF

Info

Publication number
JP6852004B2
JP6852004B2 JP2018041097A JP2018041097A JP6852004B2 JP 6852004 B2 JP6852004 B2 JP 6852004B2 JP 2018041097 A JP2018041097 A JP 2018041097A JP 2018041097 A JP2018041097 A JP 2018041097A JP 6852004 B2 JP6852004 B2 JP 6852004B2
Authority
JP
Japan
Prior art keywords
data
image
analysis result
analysis
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018041097A
Other languages
English (en)
Other versions
JP2019159406A (ja
Inventor
秀則 松崎
秀則 松崎
新肖 李
新肖 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018041097A priority Critical patent/JP6852004B2/ja
Priority to US16/114,345 priority patent/US11886513B2/en
Publication of JP2019159406A publication Critical patent/JP2019159406A/ja
Application granted granted Critical
Publication of JP6852004B2 publication Critical patent/JP6852004B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Description

本発明の実施形態は、データ解析システム、データ解析方法、及びプログラムに関する。
様々な分野において、収集されたデータを解析し、データ、解析結果等を可視化するシステムが利用されている。例えば、あるデータベースに基づいて第1の可視化画像と第2の可視化画像とを表示し、第1の可視化画像上で選択されたデータに対応するデータを第2の可視化画像上でハイライト表示するシステムが開示されている。
米国特許出願公開第2016/0092530号明細書
上記のようなシステムにおいて、特にデータベースが大規模である場合には、データベースの中から解析対象とするデータを取捨選択して抽出する抽出処理が必要となる。近年、IoT(Internet of Things)やビッグデータに関する技術の発展により、データベースの大規模化が進んでいる。また、解析処理に高度なリソースやアルゴリズム(人工知能等)が利用されるケースが増えており、解析処理を適切且つ効率的に行うために抽出処理の重要性が増している。
データベースから解析処理に適したデータを正確に抽出するためには、専門的な知識や経験が必要とされる場合がある。そのため、抽出処理は、特定の担当者により解析処理とは分離した作業として行われる場合が多い。このような状況は大規模なデータベースを解析するシステムにおける作業性を低下させる要因となる。
抽出処理を行う際には、データベースのデータを可視化した可視化画像が有効となる。可視化画像はデータの特徴を視覚的に示すことができるため、抽出処理を行う際に有効な資料となり得るからである。しかしながら、従来技術によっては、データを可視化する処理と、データを抽出する処理と、データを解析する処理とが連携していないため、作業性が低いという問題がある。
そこで、本実施形態においては、データベースから抽出されたデータを解析するシステムにおける作業性を向上させることを目的とする。
実施形態のデータ解析システムは、設定部、抽出部、解析部、及び可視化部を含む。設定部は、第1のデータセットに含まれる複数のカラムから選択された選択カラムと、選択カラムに含まれる複数の属性値から選択された属性値範囲とを設定する。抽出部は、第1のデータセットから、選択カラム、又は選択カラム及び属性値範囲に対応する第2のデータセットを抽出する。解析部は、第2のデータセットを解析する。可視化部は、第2のデータセットを可視化したデータ画像と、第2のデータセットの解析結果を可視化した解析結果画像とを表示する。
第1の実施形態に係るデータ解析システムのシステム構成例を示す図。 第1の実施形態に係る抽出装置、解析装置、及び可視化装置のハードウェア構成例を示す図。 第1の実施形態に係るデータ解析システムの機能構成例を示すブロック図。 第1の実施形態に係るプライマリデータのデータ構造例を示す図。 第1の実施形態に係る選択カラム情報のデータ構造例を示す図。 第1の実施形態に係る選択範囲情報のデータ構造例を示す図。 第1の実施形態の第1の例に係る抽出データのデータ構造例を示す図。 第1の実施形態の第2の例に係る抽出データのデータ構造例を示す図。 第1の実施形態に係る集約データのデータ構造例を示す図。 第1の実施形態の第1の例に係る解析結果のデータ構造例を示す図。 第1の実施形態の第2の例に係る解析結果のデータ構造例を示す図。 第1の実施形態の第1の例に係るデータ画像の例を示す図。 第1の実施形態の第2の例に係るデータ画像の例を示す図。 第1の実施形態の第1の例に係る解析結果画像の例を示す図。 第1の実施形態の第2の例に係る解析結果画像の例を示す図。 第1の実施形態に係るデータ解析システムにおける処理例を示すシーケンス図。 第1の実施形態に係るカラム選択画像の例を示す図。 第1の実施形態に係る範囲選択画像の例を示す図。 第2の実施形態に係るプライマリデータのデータ構造例を示す図。 第2の実施形態に係るデータ画像の例を示す図。 第2の実施形態の第1の例に係る範囲選択画像の例を示す図。 第2の実施形態に係る集約データのデータ構造例を示す図。 第2の実施形態に係るデータ画像の例を示す図。 第2の実施形態の第1の例に係る解析結果のデータ構造例を示す図。 第2の実施形態の第1の例に係る解析結果画像の例を示す図。 第2の実施形態の第2の例に係る解析結果のデータ構造例を示す図。 第2の実施形態の第2の例に係る解析結果画像の例を示す図。 第2の実施形態の第2の例に係る範囲選択画像の例を示す図。 第2の実施形態に係る選択範囲情報のデータ構造例を示す図。 第2の実施形態の第3の例に係る解析結果のデータ構造例を示す図。 第2の実施形態の第4の例に係る解析結果のデータ構造例を示す図。 第2の実施形態の第3の例に係る解析結果画像の例を示す図。
(第1の実施形態)
図1は、第1の実施形態に係るデータ解析システム1のシステム構成例を示す図である。データ解析システム1は、収集されたデータを解析し、解析結果等をユーザに提示するシステムであって、データ源11、抽出装置12、解析装置13、可視化装置14、及びネットワーク15を含む。
データ源11は、解析対象となるプライマリデータ(第1のデータセット)の収集、蓄積、管理等を行う装置又はシステム(例えば、データベースサーバ、IoTシステム等)である。抽出装置12は、データ源11に蓄積されたプライマリデータから一部のデータを抽出するための処理を行う情報処理装置である。解析装置13は、抽出装置12により抽出されたデータを解析するための処理を行う情報処理装置である。可視化装置14は、抽出装置12により抽出されたデータ、解析装置13による解析結果等を可視化するための処理を行う情報処理装置である。データ源11、抽出装置12、解析装置13、及び可視化装置14は、インターネット、LAN(Local Area Network)等のネットワーク15を介して接続されている。
図2は、第1の実施形態に係る抽出装置12、解析装置13、及び可視化装置14のハードウェア構成例を示す図である。抽出装置12、解析装置13、及び可視化装置14は、CPU(Central Processing Unit)21、RAM(Random Access Memory)22、ROM(Read Only Memory)23、ストレージ24、入力デバイス25、出力デバイス26、通信I/F27、及びバス28を含む。CPU21は、ROM23等に記憶されたプログラムに従ってRAM22をワーキングエリアとして所定の制御演算処理を行う。ストレージ24は、不揮発性メモリ、磁気ディスク等で実現されるデータ記憶装置であって、各装置12〜14における処理に必要なデータを蓄積する。入力デバイス25は、外部から情報を入力するためのデバイスであり、例えばキーボード、マウス、タッチパネル等である。出力デバイス26は、内部で生成した情報を外部に出力するためのデバイスであり、例えばディスプレイ、スピーカ、プリンタ等である。通信I/F27は、適宜なコンピュータネットワーク(ネットワーク15等)を介して外部の装置との間で情報の送受信を可能にするデバイスである。なお、入力デバイス25及び/又は出力デバイス26は不要となる場合がある。
なお、図1に示すシステム構成及び図2に示すハードウェア構成は単なる例示であり、データ解析システム1は、使用状況に応じて適宜なハードウェア及びソフトウェアを利用して構築されるべきものである。
図3は、第1の実施形態に係るデータ解析システム1の機能構成例を示すブロック図である。データ解析システム1は設定部101、抽出部102、解析部103、及び可視化部104を含む。
設定部101は、プライマリデータから一部のデータを抽出するための設定処理を行う。設定部101は、グラフィックユーザインターフェース等を用いて、プライマリデータに含まれる複数のカラムの中から所望のカラムを選択するカラム選択操作と、選択されたカラムに含まれる複数の属性値の中から所望の属性値範囲を選択する範囲選択操作とを受け付ける。設定部101は、カラム選択操作により選択されたカラム(選択カラム)を示す選択カラム情報と、範囲選択操作により選択された属性値範囲(選択範囲)を示す選択範囲情報とを生成する。
図4は、第1の実施形態に係るプライマリデータ31のデータ構造例を示す図である。本例に係るプライマリデータ31は、4つのカラム、「time」、「特徴量1」、「特徴量2」、及び「特徴量3」を含み、各カラムの属性値が対応付けられた複数のレコード32が「time」の属性値(1〜1000000)を基準として昇順にソートされている。本実施形態に係る「time」の属性値は、全範囲に渡って均等に増加していく連続的な値であり、例えば経過時間等を示す値である。なお、プライマリデータ31のデータ構造はこれに限られるものではなく、複数のカラムを含むものであれば様々なデータ構造が許容される。
図5は、第1の実施形態に係る選択カラム情報35のデータ構造例を示す図である。本例に係る選択カラム情報35は、プライマリデータ31の一部を可視化した画像であるデータ画像(後述する図12,13等に示されるデータ画像61,62等)を構成する「軸」と、上記カラム選択操作により選択された選択カラムを示す「選択カラム」とが対応付けられた構造を有している。本例では、データ画像の「X軸」上に「time」の属性値を配置し、「Y軸」上に「特徴量2」の属性値を配置するように設定されている。なお、選択カラム情報35のデータ構造はこれに限られるものではなく、プライマリデータ31のデータ構造、データ画像の構成等に応じて適宜決定されるものである。例えば、データ画像が3次元画像である場合には、X軸、Y軸、及びZ軸のそれぞれについて選択カラムが対応付けられたデータ構造の選択カラム情報が生成される。
図6は、第1の実施形態に係る選択範囲情報36のデータ構造例を示す図である。本例に係る選択範囲情報36は、特定の選択カラムを示す「範囲キー」(本例では「time」)と、当該選択カラムの全属性値範囲の中から選択された「開始位置」(本例では「10000」)と、当該選択カラムの全属性値範囲の中から選択された「終了位置」(本例では「20000」)とが対応付けられた構造を有している。開始位置から終了位置までの範囲(本例では「10000〜20000」)が上記範囲選択操作により選択された選択範囲となる。なお、選択範囲情報36のデータ構造はこれに限られるものではなく、プライマリデータ31のデータ構造、データ画像の構成等に応じて適宜決定されるものである。例えば、データ画像が3次元画像である場合には、X軸、Y軸、及びZ軸のうちから選択された2つ以上の軸のそれぞれについて属性値範囲(開始位置及び終了位置)が設定されてもよい。
抽出部102は、選択カラム情報35及び選択範囲情報36に基づいて、プライマリデータ31から選択カラム及び選択範囲に対応する抽出データ(第2のデータセット)を抽出する。抽出部102は、選択カラム情報35のみに基づいて、選択カラムの全属性値範囲のデータを抽出してもよいし、選択カラム情報35及び選択範囲情報36の両方に基づいて、選択カラムの全属性値範囲のうち選択範囲に対応するデータのみを抽出してもよい。
図7は、第1の実施形態の第1の例に係る抽出データ41のデータ構造例を示す図である。本例に係る抽出データ41は、選択カラム情報35のみに基づいて、選択カラム(「time」及び「特徴量2」)の全属性値範囲(1〜1000000)のデータを抽出した場合の例である。本例に係る抽出データ41のデータ量(レコード数)は1000000となる。
図8は、第1の実施形態の第2の例に係る抽出データ42のデータ構造例を示す図である。本例に係る抽出データ42は、選択カラム情報35及び選択範囲情報36の両方に基づいて、選択カラム(「time」及び「特徴量2」)の全属性値範囲のうち選択範囲(10000〜20000)に対応するデータのみを抽出した場合の例である。本例に係る抽出データ42のデータ量は10001となる。
また、本実施形態に係る抽出部102は、集約部111を含む。集約部111は、所定のパラメータに基づいて抽出データ41,42を集約し、抽出データ41,42よりデータ量が削減された集約データ(第3のデータセット)を生成する集約処理を行う。集約処理の具体的方法は特に限定されるべきものではなく、集約目的、抽出データ41,42のデータ構造等に応じて適宜決定されるべきものである。集約処理は、例えば、選択カラムの複数の属性値の平均値、最大値、最小値等を利用して抽出データ41,42のデータ量を削減する方法等であり得る。集約目的とは、例えばリソース上の制限に対応する目的等であり得る。リソース上の制限とは、例えば、ディスプレイ(表示装置)の解像度、CPUの処理能力、メモリの記憶容量等の限界等であり得る。所定のパラメータは、例えばディスプレイの解像度に基づく値、CPUの処理能力に基づく値、メモリの記憶容量に基づく値、ユーザによる設定値等であり得る。
集約処理は、必ずしも実行されなければならないものではなく、所定の条件が満たされた場合にのみ実行されてもよい。例えば、抽出データ41,42のデータ量が所定値以上である場合、リソース上の制限に対応する必要がある場合、ユーザにより要求された場合等に集約処理が行われるようにしてもよい。
図9は、第1の実施形態に係る集約データ45のデータ構造例を示す図である。本例に係る集約データ45は、図8に示す抽出データ42に集約処理を施したデータの例である。集約データ45における「time」の属性値範囲は、100毎に区切られている。また、集約データ45における「特徴量2(平均)」の各属性値は、抽出データ42における「特徴量2」の複数の属性値の平均値となっている。例えば、集約データ45の「time」の属性値「10100」に対応する「特徴量2(平均)」の属性値「69.8」は、抽出データ42の「time」の「10051〜10150」に対応する「特徴量2」の複数の属性値の平均値であり得る。これにより、集約データ45のデータ量は101となり、抽出データ42のデータ量(10001)から大きく削減されている。なお、集約データのデータ構造はこれに限られるものではなく、集約処理の方法(例えば最大値、最小値等を利用する方法)、抽出データ41,42のデータ構造等に応じて適宜決定されるものである。
解析部103は、抽出部102により抽出された抽出データ41,42又は集約部111により生成された集約データ45を解析する。解析部103による解析処理の内容は特に限定されるべきものではないが、例えば異常検知、クラスタリング処理、傾向分析等であり得る。解析部103による解析結果は可視化部104に出力される。
図10は、第1の実施形態の第1の例に係る解析結果51のデータ構造例を示す図である。本例に係る解析結果51は、抽出データ42又は集約データ45に対する解析処理(本例では異常検知)の解析結果を示すデータである。本例に係る解析結果51は、異常が検知された区間(異常が発生した時点を含む属性値範囲)を特定する異常区間IDと、異常が検知された区間の開始位置を示す異常区間開始位置と、異常が検知された区間の終了位置を示す異常区間終了位置とが対応付けられた構造を有している。このような解析結果51により、あるカラム(本例では「time」)について異常が発生した属性値範囲(本例では15500〜16000)を特定することができる。
図11は、第1の実施形態の第2の例に係る解析結果52のデータ構造例を示す図である。本例に係る解析結果52は、第1の例に係る解析結果51と同様に、抽出データ42又は集約データ45に対する解析処理の解析結果を示すデータである。本例に係る解析結果52は、抽出データ42又は集約データ45のあるカラム(本では「time」)の属性値範囲全体を複数の区画に分け、区画毎に正常/異常の解析結果を示すデータ構造を有している。このような解析結果52により、あるカラムの属性値範囲全体のうち、異常が発生した属性値範囲と、異常が発生しなかった属性値範囲とを判別することができる。
なお、解析結果のデータ構造は上記に限られるものではなく、解析処理の内容、抽出データ41,42又は集約データ45のデータ構造等に応じて適宜決定されるものである。
可視化部104は、抽出部102により生成された抽出データ41,42又は集約部111により生成された集約データ45、及び解析部103から出力された解析結果51,52を可視化する。可視化部104は、データ表示部121及び解析結果表示部122を含む。データ表示部121は、抽出データ41,42又は集約データ45を可視化したデータ画像を表示する。解析結果表示部123は、解析結果51,52を可視化した解析結果画像を表示する。
図12は、第1の実施形態の第1の例に係るデータ画像61の例を示す図である。本例に係るデータ画像61は、図7に示す第1の例に係る抽出データ41を可視化した画像である。データ画像61は、X軸に対応する選択カラム「time」の全属性値範囲(1〜1000000)を描画対象としている。データ画像61には、「特徴量2」の属性値が急激に大きく上昇している特異点65が存在している。
図13は、第1の実施形態の第2の例に係るデータ画像62の例を示す図である。本例に係るデータ画像62は、図8に示す第2の例に係る抽出データ42又は図9に示す集約データ45を可視化した画像である。データ画像62は、X軸に対応する選択カラム「time」の全属性値範囲の中から選択された属性値範囲(選択範囲:10000〜20000)を描画対象としている。データ画像62には特異点65が含まれている。すなわち、選択範囲:10000〜20000は特異点65を含むように設定されている。
なお、データ画像の画面構成は上記に限られるものではなく、抽出データ41,42又は集約データ45のデータ構造等に応じて適宜決定されるものである。
図14は、第1の実施形態の第1の例に係る解析結果画像71の例を示す図である。本例に係る解析結果画像71は、図10に示す第1の例に係る解析結果51又は図11に示す第2の例に係る解析結果52を可視化した画像である。解析結果画像71は、異常と判定された部分をHi(ON)で示し、正常と判定された部分をLo(OFF)で示すON/OFFグラフである。
図15は、第1の実施形態の第2の例に係る解析結果画像72の例を示す図である。本例に係る解析結果画像72は、第1の例に係る解析結果画像71と同様に、図10に示す第1の例に係る解析結果51又は図11に示す第2の例に係る解析結果52を可視化した画像である。解析結果画像72は、図13に示すデータ画像62上で異常部分が視認可能となるように、異常部分を正常部分とは異なった表示形式で表示した異常部オブジェクト67を含んでいる。
なお、解析結果画像71,72の画面構成は上記に限られるものではなく、解析処理の内容等に応じて適宜決定されるものである。
上記各機能部101〜104は、1つ以上の集積回路を利用して実現される。上記各機能部101〜104は、CPU21等のプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現されてもよい。また、上記各機能部101〜104は、専用のIC(Integrated Circuit)等のプロセッサ、すなわちハードウェアにより実現されてもよい。また、上記各機能部101〜104は、ソフトウェア及びハードウェアを併用して実現されてもよい。複数のプロセッサを用いる場合、各プロセッサは、各機能部101〜104のうちの1つを実現してもよいし、各機能部101〜104のうちの2以上を実現してもよい。
上記データ解析システム1の機能を実現させるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供することができる。また、プログラムは、ネットワークに接続された所定の記憶装置から所定のコンピュータにダウンロードすることにより提供されてもよいし、予めROM等に組み込まれて所定の情報処理装置に提供されてもよい。また、プログラムは、上記機能部101〜104の機能を実現する複数のモジュールから構成されてもよい。
図16は、第1の実施形態に係るデータ解析システム1における処理例を示すシーケンス図である。抽出部102がデータ源11からプライマリデータ31を入力すると(S101)、設定部101は、ユーザによるカラム選択操作及び範囲選択操作を受け付け(S102)、カラム選択操作により選択された選択カラムを示す選択カラム情報35及び範囲選択操作により選択された選択範囲を示す選択範囲情報36を抽出部102に出力する(S103)。
図17は、第1の実施形態に係るカラム選択画像75の例を示す図である。カラム選択画像75は、ステップS102におけるカラム選択操作を行う際に利用されるグラフィックユーザインターフェースの例である。本例に係るカラム選択画像75には、データ画像61,62のX軸に対応する選択カラム(本例では「time」)を選択する入力部と、Y軸に対応する選択カラム(本例では「特徴量2」)を選択する入力部とを含んでいる。
図18は、第1の実施形態に係る範囲選択画像76の例を示す図である。範囲選択画像76は、ステップS102における範囲選択操作を行う際に利用されるグラフィックユーザインターフェースの例である。本例に係る範囲選択画像76は、図12に示すデータ画像61上でマウスのドラッグアンドドロップ操作を利用してX軸の全属性値範囲の中から所望の選択範囲(本例では「開始位置:10000」及び「終了位置:20000」)を設定できるように構成されている。例えば、ドラッグ操作により開始位置を指示し、ドロップ操作により終了位置を指示する。このような範囲選択画像76を利用することにより、ユーザは、画面を確認しながら容易に特徴点65を含むように選択範囲を設定することができる。
図16に戻り、抽出部102は、選択カラム情報35及び選択範囲情報36に基づいて、プライマリデータ31から選択カラム及び選択範囲に対応する抽出データ41,42を抽出する抽出処理を行い(S104)、抽出データ41,42に対して集約処理が必要か否かを判定する(S105)。集約処理が必要か否かの判定方法は特に限定されるべきものではないが、例えば、抽出データ41,42の数が所定値以上である場合、リソース上の制限に対応する必要がある場合、ユーザにより要求された場合等に集約処理が必要であると判定することができる。
集約処理が不要である場合(S105:No)、抽出部102は抽出データ41,42をそのまま解析部103及び可視化部104に出力する(S106)。一方、集約処理が必要である場合(S105:Yes)、抽出部102(集約部111)は抽出データ41,42に対して集約処理を実行し(S107)、集約処理により生成された集約データ45を解析部103及び可視化部104に出力する(S108)。
解析部103は、抽出部102から出力された抽出データ41,42又は集約データ45を解析し(S109)、解析結果を可視化部104に出力する(S110)。
可視化部104は、抽出部102から出力された抽出データ41,42又は集約データ45を可視化したデータ画像61,62を表示し(S111)、解析部103から出力された解析結果を示す解析結果画像71,72を表示する(S112)。データ画像61,62及び解析結果画像71,72は同一画面上に表示可能であることが好ましい。
ユーザは、ステップS111において可視化部104により表示されたデータ画像61,62を確認しながら、ステップS102における設定部101によるカラム選択操作又は範囲選択操作を行い、選択カラム又は選択範囲を適宜変化させることができる。選択カラム又は選択範囲の変化に応じて、抽出部102は抽出データ41,42又は集約データ45を更新し、解析部103は解析結果を更新し、可視化部104はデータ画像61,62及び解析結果画像71,72を更新する。これにより、ユーザは、データ画像61,62及び解析結果画像71,72を確認しながら解析対象とするデータを簡便に取捨選択することが可能となる。
上記のように、本実施形態に係るデータ解析システム1によれば、複数のカラムを含むプライマリデータ31について、データを可視化する処理と、データを抽出(集約を含む)する処理と、データを解析する処理とを連携させることが可能となる。これにより、データベースから抽出されたデータを解析するシステムにおける作業性を大きく向上させることが可能となる。
以下に他の実施形態について図面を参照して説明するが、第1の実施形態と同一又は同様の作用効果を奏する箇所については同一の符号を付してその説明を省略する場合がある。
(第2の実施形態)
図19は、第2の実施形態に係るプライマリデータ151のデータ構造例を示す図である。第1の実施形態に係るプライマリデータ31のカラム「time」の属性値は、1から1000000までの等間隔な値であったが、本実施形態に係るプライマリデータ151のカラム「time」の属性値は、1から1000000までの等間隔でない値である。すなわち、本実施形態に係るプライマリデータ151は、複数の属性値が等間隔に配列されていないカラム(「time」、「特徴量1」、「特徴量2」、及び「特徴量3」)のみから構成されている。
図20は、第2の実施形態に係るデータ画像153の例を示す図である。データ画像153は、図19に示すプライマリデータ151から図5に示す選択カラム情報35に基づいて抽出された抽出データを可視化した画像であり、選択カラム「time」の属性値が等間隔でないことに対応した散布図となっている。なお、バーチャート、ラインチャート等の表示形式が採用されてもよい。
図21は、第2の実施形態の第1の例に係る範囲選択画像155の例を示す図である。範囲選択画像155は、図18に示す第1の実施形態に係る範囲選択画像76と同様に、範囲選択操作を行う際に利用されるグラフィックユーザインターフェースの例である。範囲選択画像155は、図20に示すデータ画像153上でマウスカーソルを利用してX軸上の「time」の不連続な属性値範囲の中から所望の選択範囲(本例では「開始位置:10000」及び「終了位置:20000」)を設定できるように構成されている。
図22は、第2の実施形態に係る集約データ201のデータ構造例を示す図である。本実施形態に係る集約部111(図3参照)は、集約処理により集約された値(例えば平均値等)を算出するために使用されたデータの数をカウントし、当該データの数を示す「データ数」含む集約データ201を生成する。例えば、「特徴量2(平均)」の値(例えば67.2)が、20個の属性値の平均値である場合、これに対応する「データ数」は「20」となる。なお、データ数はこれに限られるものではなく、例えば最大値、最小値等を決定するために使用した属性値の数等であってもよい。
図23は、第2の実施形態に係るデータ画像205の例を示す図である。本例に係るデータ画像205は、図22に示す集約データ201を可視化した画像であり、他の部分とは表示形式(例えば、色、点滅、輝度、形状等)が異なっている変異オブジェクト206を含んでいる。変異オブジェクト206は、集約データ201における「データ数」の値が所定の条件を満たす点を示しており、本例では「データ数」の値が10以上である点を示している。「データ数」の値が大きい程「特徴量2(平均)」の値の信頼性が高いと言えるため、上記のような変異オブジェクト206を表示することにより、データ画像205内において信頼性が高い部分を視覚的に示すことが可能となる。なお、変異オブジェクト206を表示させる条件は上記に限られるものではなく、例えば「データ数」の値が所定値以下であること等であってもよい。
図24は、第2の実施形態の第1の例に係る解析結果211のデータ構造例を示す図である。本実施形態に係る解析部103(図3参照)は、解析処理として抽出データ又は集約データに対してクラスタリング処理を行い、クラスタリング処理の結果を示す解析結果211を生成する。本例に係る解析結果211は、図22に示す集約データ201に対してクラスタリング処理を行った結果を示している。クラスタリング処理の方法は特に限定されるべきものではないが、例えばk−means法等が利用され得る。当該クラスタリング処理は、上記「データ数」を重み付けとして利用して行われてもよい。本例に係る解析結果211は、クラスタを特定する識別子を示す「クラスタID」と、クラスタの開始位置を示す「クラスタ開始位置」と、クラスタの終了位置を示す「クラスタ終了位置」とを含んでいる。本例においては、集約データ201が4つのクラスタに分割されている。
図25は、第2の実施形態の第1の例に係る解析結果画像215の例を示す図である。本例に係る解析結果画像215は、クラスタ毎に表示形式が異なっているクラスタオブジェクト216〜219を含んでいる。本例においては、第1のクラスタオブジェクト216の群はクラスタID「1」に対応し、第2のクラスタオブジェクト217の群はクラスタID「2」に対応し、第3のクラスタオブジェクト218の群はクラスタID「3」に対応し、第4のクラスタオブジェクト219の群はクラスタID「4」に対応している。
図26は、第2の実施形態の第2の例に係る解析結果221のデータ構造例を示す図である。本例に係る解析結果221は、図22に示す集約データ201に、図24に示す解析結果211に含まれる「クラスタID」を結合させたデータである。
図27は、第2の実施形態の第2の例に係る解析結果画像225の例を示す図である。解析結果画像225は、図23に示すデータ画像205上に各クラスタを示すクラスタオブジェクト226〜229を重畳させた画像である。本例においては、第1のクラスタオブジェクト226はクラスタID「1」に対応するクラスタを構成するドットを囲い、第2のクラスタオブジェクト227はクラスタID「2」に対応するクラスタを構成するドットを囲い、第2のクラスタオブジェクト228はクラスタID「3」に対応するクラスタを構成するドットを囲い、第4のクラスタオブジェクト229はクラスタID「4」に対応するクラスタを構成するドットを囲っている。
図28は、第2の実施形態の第2の例に係る範囲選択画像231の例を示す図である。本例に係る範囲選択画像213は、範囲選択操作を行う際に利用されるグラフィックユーザインターフェースの例であり、図25に示す解析結果画像215上でマウスカーソルを利用してX軸上の「time」の属性値範囲及びY軸上の「特徴量2」の属性値範囲の中から所望の選択範囲を設定できるように構成されている。本例では、X軸について「開始位置:16000」及び「終了位置:18000」が設定され、Y軸について「開始位置:70」及び「終了位置:74」が設定されている。
図29は、第2の実施形態に係る選択範囲情報235のデータ構造例を示す図である。図6に示す第1の実施形態に係る選択範囲情報36は、X軸(time)に対応する選択範囲(開始位置及び終了位置)のみを示す情報であったが、本例に係る選択範囲情報235は、X軸(time)に対応する選択範囲とY軸(特徴量2)に対応する選択範囲とを示す情報である。
図30は、第2の実施形態の第3の例に係る解析結果241のデータ構造例を示す図である。本例に係る解析結果241は、図29に示す選択範囲情報235に基づいて、図22に示す集約データ201に対してクラスタリング処理を行った結果を示している。当該クラスタリング処理は、上記「データ数」を重み付けとして利用して行われてもよい。本例に係る解析部103は、選択範囲情報235により示される選択範囲に対応する集約データ201のデータを他のデータと異なるクラスタ(本例では、クラスタID「4」)に分類する。
図31は、第2の実施形態の第4の例に係る解析結果245のデータ構造例を示す図である。本例に係る解析結果245は、図22に示す集約データ201に、図30に示す解析結果241に含まれる「クラスタID」を結合させたデータである。
図32は、第2の実施形態の第3の例に係る解析結果画像251の例を示す図である。本例に係る解析結果画像251は、図30に示す解析結果241又は図31に示す解析結果245を可視化した画像であり、図25に示す解析結果画像215と同様に、クラスタ毎に表示形式が異なっているクラスタオブジェクト252〜256を含んでいる。本例においては、第1のクラスタオブジェクト252の群はクラスタID「1」に対応し、第2のクラスタオブジェクト253の群はクラスタID「2」に対応し、第3のクラスタオブジェクト254の群はクラスタID「3」に対応し、第4のクラスタオブジェクト255の群はクラスタID「4」に対応し、第5のクラスタオブジェクト256の群はクラスタID「5」に対応している。
上記のように、本実施形態によれば、集約処理により集約された値を算出するために使用されたデータの数が解析処理(解析結果の重み付け等)に利用される。これにより、解析結果の信頼性を向上させることが可能となる。例えば、複数の属性値が等間隔に配列されていないカラムのみからなるプライマリデータ151についても、解析処理を適切に行うことが可能となる。
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することを意図するものではない。この新規な実施形態はその他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態及びその変形は発明の範囲及び要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 データ解析システム
11 データ源
12 抽出装置
13 解析装置
14 可視化装置
15 ネットワーク
21 CPU
22 RAM
23 ROM
24 ストレージ
25 入力デバイス
26 出力デバイス
27 通信I/F
28 バス
31,151 プライマリデータ(第1のデータセット)
32 レコード
35 選択カラム情報
36,235 選択範囲情報
41,42 抽出データ(第2のデータセット)
45,201 集約データ(第3のデータセット)
51,52,211,221,241,245 解析結果
61,62,153,205 データ画像
65 特異点
67 異常部オブジェクト
71,72,215,225,251 解析結果画像
75 カラム選択画像
76,155,231 範囲選択画像
206 変異オブジェクト
216〜219,226〜229,252〜256 クラスタオブジェクト
101 設定部
102 抽出部
103 解析部
104 可視化部
111 集約部
121 データ表示部
122 解析結果表示部

Claims (8)

  1. 第1のデータセットに含まれる複数のカラムから選択された選択カラムと、前記選択カラムに含まれる複数の属性値から選択された属性値範囲とを設定する設定部と、
    前記第1のデータセットから、前記選択カラム、又は前記選択カラム及び前記属性値範囲に対応する第2のデータセットを抽出する抽出部と、
    所定のパラメータに基づいて前記第2のデータセットを集約し、前記第2のデータセットよりデータ量が削減された第3のデータセットを生成する集約処理を行う集約部と、
    前記第3のデータセットを解析する解析部と、
    前記第3のデータセットを可視化したデータ画像と、前記第3のデータセットの解析結果を可視化した解析結果画像とを表示する可視化部と、を備え、
    前記設定部は、前記データ画像又は前記解析結果画像を確認しながら選択された、前記選択カラム又は前記属性値範囲を設定する、
    ータ解析システム。
  2. 記可視化部は、前記選択カラム又は前記属性値範囲の変更に応じて前記データ画像及び前記解析結果画像を更新する、
    請求項1に記載のデータ解析システム。
  3. 前記パラメータは、前記データ画像又は前記解析結果画像が表示される表示装置の解像度に基づく値を含む、
    請求項1に記載のデータ解析システム。
  4. 前記解析部は、前記集約処理により集約された値を算出するために用いられたデータの数を示すデータ数を重み付けとして利用して、前記第3のデータセットに対してクラスタリング処理を実行する、
    請求項1に記載のデータ解析システム。
  5. 前記第1のデータセットは、前記複数の属性値が等間隔に配列されていない前記カラムのみからなる、
    請求項1に記載のデータ解析システム。
  6. 前記可視化部は、前記データ画像と前記解析結果画像とを同一画面内に表示する、
    請求項1〜5のいずれか1項に記載のデータ解析システム。
  7. データ解析システムが実行するデータ解析方法であって、
    第1のデータセットに含まれる複数のカラムから選択された選択カラムと、前記選択カラムに含まれる複数の属性値から選択された属性値範囲とを設定する設定ステップと、
    前記第1のデータセットから、前記選択カラム、又は前記選択カラム及び前記属性値範囲に対応する第2のデータセットを抽出する抽出ステップと、
    所定のパラメータに基づいて前記第2のデータセットを集約し、前記第2のデータセットよりデータ量が削減された第3のデータセットを生成する集約処理を行う集約ステップと、
    前記第3のデータセットを解析する解析ステップと、
    前記第3のデータセットを可視化したデータ画像と、前記第3のデータセットの解析結果を可視化した解析結果画像とを表示する可視化ステップと、を含み、
    前記設定ステップは、前記データ画像又は前記解析結果画像を確認しながら選択された、前記選択カラム又は前記属性値範囲を設定する、
    ータ解析方法。
  8. コンピュータに、
    第1のデータセットに含まれる複数のカラムから選択された選択カラムと、前記選択カラムに含まれる複数の属性値から選択された属性値範囲とを設定する設定処理と、
    前記第1のデータセットから、前記選択カラム、又は前記選択カラム及び前記属性値範囲に対応する第2のデータセットを抽出する第2のデータセットを抽出する抽出処理と、
    所定のパラメータに基づいて前記第2のデータセットを集約し、前記第2のデータセットよりデータ量が削減された第3のデータセットを生成する集約処理と、
    前記第3のデータセットを解析する解析処理と、
    前記第3のデータセットを可視化したデータ画像と、前記第3のデータセットの解析結果を可視化した解析結果画像とを表示する可視化処理と、を実行させ、
    前記設定処理は、前記データ画像又は前記解析結果画像を確認しながら選択された、前記選択カラム又は前記属性値範囲を設定する、
    ログラム。
JP2018041097A 2018-03-07 2018-03-07 データ解析システム、データ解析方法、及びプログラム Active JP6852004B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018041097A JP6852004B2 (ja) 2018-03-07 2018-03-07 データ解析システム、データ解析方法、及びプログラム
US16/114,345 US11886513B2 (en) 2018-03-07 2018-08-28 Data analysis system, data analysis method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018041097A JP6852004B2 (ja) 2018-03-07 2018-03-07 データ解析システム、データ解析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019159406A JP2019159406A (ja) 2019-09-19
JP6852004B2 true JP6852004B2 (ja) 2021-03-31

Family

ID=67843278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018041097A Active JP6852004B2 (ja) 2018-03-07 2018-03-07 データ解析システム、データ解析方法、及びプログラム

Country Status (2)

Country Link
US (1) US11886513B2 (ja)
JP (1) JP6852004B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10831870B2 (en) * 2018-08-28 2020-11-10 International Business Machines Corporation Intelligent user identification

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1386275A2 (en) * 2000-07-18 2004-02-04 Correlogic Systems, Inc. A process for discriminating between biological states based on hidden patterns from biological data
US6704742B1 (en) * 2001-07-03 2004-03-09 Johnson Controls Technology Company Database management method and apparatus
US8103966B2 (en) * 2008-02-05 2012-01-24 International Business Machines Corporation System and method for visualization of time-based events
JP5245495B2 (ja) 2008-03-31 2013-07-24 大日本印刷株式会社 時系列データ用グラフ表示装置
AU2010330720B2 (en) * 2009-12-18 2014-08-28 Graphika, Inc. System and method for attentive clustering and related analytics and visualizations
US20120329537A1 (en) * 2011-06-21 2012-12-27 Tangam Technologies Inc. System and Method for Processing Casino Table Games Yield Management Data
US8902777B1 (en) * 2012-06-29 2014-12-02 Juniper Networks, Inc. Methods and apparatus for self-tuning aggregation of data units
US20150019537A1 (en) * 2012-09-07 2015-01-15 Splunk Inc. Generating Reports from Unstructured Data
US10997556B2 (en) * 2013-04-08 2021-05-04 Oracle International Corporation Summarizing tabular data across multiple projects using user-defined attributes
US10528589B2 (en) 2014-09-26 2020-01-07 Oracle International Corporation Cross visualization interaction between data visualizations
US10255345B2 (en) * 2014-10-09 2019-04-09 Business Objects Software Ltd. Multivariate insight discovery approach
US20160314545A1 (en) * 2015-04-22 2016-10-27 Alpha Endeavors LLC Data collection, storage, and processing system using one or more inputs
US10394801B2 (en) * 2015-11-05 2019-08-27 Oracle International Corporation Automated data analysis using combined queries
JP2018005721A (ja) 2016-07-06 2018-01-11 株式会社東芝 表示情報生成システム、方法、及びプログラム
US10728352B2 (en) * 2017-10-27 2020-07-28 Facebook, Inc. Managing digital forums and networking groups utilizing a group activity indicator
US11331848B2 (en) * 2019-11-26 2022-05-17 Mark Saberton 3D printing bead configuration

Also Published As

Publication number Publication date
JP2019159406A (ja) 2019-09-19
US20190278871A1 (en) 2019-09-12
US11886513B2 (en) 2024-01-30

Similar Documents

Publication Publication Date Title
JP6555061B2 (ja) クラスタリングプログラム、クラスタリング方法、および情報処理装置
JP6652699B2 (ja) アノマリ評価プログラム、アノマリ評価方法、および情報処理装置
CN102591321B (zh) 监视控制系统
US10611086B2 (en) System and method for evaluating additive manufacturing index
JP2007207173A (ja) 性能分析プログラム、性能分析方法、および性能分析装置
JP6952660B2 (ja) 更新支援装置、更新支援方法およびプログラム
JP2017111601A (ja) 調査対象特定プログラム、および調査対象特定方法
US10642818B2 (en) Causal analysis device, causal analysis method, and non-transitory computer readable storage medium
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
CN112749179A (zh) 可视化数据生成装置、生成系统以及生成方法
WO2016092677A1 (ja) モジュール分割支援装置、方法、及びプログラム
JP6852004B2 (ja) データ解析システム、データ解析方法、及びプログラム
JP6622938B1 (ja) 相関性抽出方法および相関性抽出プログラム
CN110874644A (zh) 辅助用户探索数据集、数据表的方法及装置
JP2020154512A (ja) 文分類装置、文分類方法及び文分類プログラム
KR101807585B1 (ko) 유한요소 해석을 이용한 설계 자동화 장치 및 방법
JP7269765B2 (ja) データ可視化システムおよびデータ可視化プログラム
JP5714472B2 (ja) 製品情報管理装置、方法、及びプログラム
JP6045874B2 (ja) タイヤ設計方法、タイヤ設計用支援装置及びタイヤ設計用支援プログラム
JP6771314B2 (ja) 予測不可データ判定システム及び予測不可データ判定方法
JP2020149498A (ja) データ処理装置、表示制御システム、データ処理方法およびプログラム
JP2020184159A (ja) 設計支援システム、設計支援方法および設計支援プログラム
JP7095744B2 (ja) 予測状況可視化装置、予測状況可視化方法および予測状況可視化プログラム
CN117539948B (zh) 基于深度神经网络的业务数据检索方法及装置
CN112800294B (zh) 数据展示图表的处理方法、装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210310

R151 Written notification of patent or utility model registration

Ref document number: 6852004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151