JP6862531B2 - ガイド付きデータ探索 - Google Patents
ガイド付きデータ探索 Download PDFInfo
- Publication number
- JP6862531B2 JP6862531B2 JP2019231678A JP2019231678A JP6862531B2 JP 6862531 B2 JP6862531 B2 JP 6862531B2 JP 2019231678 A JP2019231678 A JP 2019231678A JP 2019231678 A JP2019231678 A JP 2019231678A JP 6862531 B2 JP6862531 B2 JP 6862531B2
- Authority
- JP
- Japan
- Prior art keywords
- attributes
- data
- entropy
- interest
- sorted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000011237 bivariate analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本願は、2014年9月24日に出願された仮特許出願番号第62/054,517号の優先権を主張し、その内容は、引用によって本明細書に援用される。
一実施例は、一般にコンピュータシステムに向けられ、特にガイド付きデータ探索によりデータの分析を提供するコンピュータシステムに向けられる。
近年、コンピュータシステムにより、個人および組織は大量のデータを取り込んで保存することができるようになってきた。データの急増は、時には「ビッグデータ」と呼ばれ、これは、従来のデータ処理アプリケーションで処理することが困難になるほど巨大または複雑なデータセットの集合体を表わす包括的な語である。
一実施例は、データを探索するためのシステムである。上記システムは、データベースから上記データを受信し、上記データをサーバ内に索引付けする。上記システムは、上記索引付けされたデータから1つ以上の選択可能なデータセットを表示し、上記選択されたデータセットは、1つ以上の属性を含む。上記システムは、次いで、興味深さのレベルによって上記1つ以上の属性をソートし、上記ソートされた属性を表示する。
本発明の実施例は、ガイド付きデータ探索を提供する。実施例のうちの1つでは、索引付けされたデータセット(すなわちデータまたはデータレコードの集合体)を表示してユーザがデータセットのうちの1つを選択することを可能にするユーザインターフェイスを
生成する。それに応答して、ユーザインターフェイスは、選択されたデータセットの属性を興味深さの順に表示する。次いで、ユーザは、属性の1つ以上の値をさらに選択することができ、その結果、ユーザが所望のデータを選択および表示することを助けるようにデータセットがリファイン(絞り込み)される。
ータベースからデータを受信して当該データを索引付けする索引付けモジュールと、索引付けされたデータから1つ以上の選択可能なデータセットを表示する表示モジュールと、選択可能なデータセットのうちの1つ以上の選択を受信して興味深さのレベルによって1つ以上の属性をソートするソートモジュールとを含む。
C)、プログラマブルゲートアレイ(programmable gate array:PGA)、フィールド
プログラマブルゲートアレイ(field programmable gate array:FPGA)など)また
はハードウェアとソフトウェアとの任意の組み合わせによって実行されてもよい。
視覚化のタイプ(例えば棒グラフ、グラフ、地図など)も決定される。一実施例では、視覚化のタイプの決定にハードコードされた決定木が使用される。図4では、各タイルは、データセットの属性(すなわちデータベース属性の列)を表わす。ユーザは、特定のタイル/列を拡大することもできる。したがって、ユーザは、メタデータを含む各々の特定の列/タイルを一目で見ることができる。
が0〜65536の間の均一に分散された値を表わしている場合には、各値の不確実性は高い。この例では、65536=216の結果があり、そのため16ビットのエントロピがある。
には、高濃度属性(例えば、製品ごとに異なっていると予想される製品在庫数の列)が存在する。このような属性は、情報を伝達することも期待できない。
ができる。このシナリオでは、選択された列に対して、エントロピが計算され、興味深さが判断される。
かし、開示されている実施例の変形例および変更例も、本発明の精神および所期の範囲から逸脱することなく、添付の特許請求の範囲の範囲内で、上記の教示によって包含される、ということが理解されるであろう。
Claims (13)
- データを探索するための方法であって、
データベースから前記データを受信するステップと、
前記データをサーバ内に索引付けするステップと、
前記索引付けされたデータから1つ以上の選択可能なデータセットを表示するステップとを備え、前記データセットの各々は、1つ以上の属性を備え、前記方法はさらに、
前記属性についてのエントロピを決定されたエントロピ範囲に正規化し、正規化されたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングし、エントロピがマッピングされた興味深さのレベルによって前記1つ以上の属性をソートするステップと、
前記ソートされた1つ以上の属性を表示するステップとを備える、方法。 - 前記データベース内の前記データのうちの少なくともいくつかは、非構造化データである、請求項1に記載の方法。
- 前記ソートするステップは、
決定されたエントロピ範囲にローエンドカットオフを適用し、前記決定されたエントロピ範囲にハイエンドカットオフを適用し、前記ローエンドカットオフおよび前記ハイエンドカットオフに基づいて前記正規化されたエントロピをフィルタリングするステップと、
前記フィルタリングされたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングするステップとを備える、請求項1または2に記載の方法。 - 前記ソートされた1つ以上の属性を表示するステップは、各々のソートされた属性ごとにタイルを表示するステップを備え、前記タイルは、前記属性の視覚化を備える、請求項1から3のいずれか1項に記載の方法。
- 前記ソートされた1つ以上の属性の表示から1つ以上の属性の選択を受信するステップと、
それに応答して、
前記選択された1つ以上の属性を備えるデータセットを前記データから選択するステップと、
選択された前記データセットの前記1つ以上の属性について前記ソートをし直すステップとをさらに備える、請求項1から4のいずれか1項に記載の方法。 - 前記データベースから受信された前記データに対してメタデータの特定を実行するステップをさらに備える、請求項1から5のいずれか1項に記載の方法。
- 前記選択可能なデータセットのうちの1つ以上の選択を受信するステップをさらに備える、請求項1から6のいずれか1項に記載の方法。
- 前記属性の各々は、データベース列で構成される、請求項1から7のいずれか1項に記載の方法。
- 命令を含むコンピュータ読取可能なプログラムであって、前記命令は、プロセッサによって実行されたときに前記プロセッサに請求項1から8のいずれか1項に記載の方法を実行させる、プログラム。
- ガイド付きデータ探索システムであって、
データベースからデータを受信して前記データをサーバ内に索引付けする索引付けモジュールと、
前記索引付けされたデータから1つ以上の選択可能なデータセットを表示する表示モジュールとを備え、各々の選択可能なデータセットは、1つ以上の属性を備え、前記システムはさらに、
前記属性についてのエントロピを決定されたエントロピ範囲に正規化し、正規化されたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングし、マッピングされた値が示す興味深さのレベルによって前記1つ以上の属性をソートするソートモジュールを備え、
前記表示モジュールは、前記ソートされた1つ以上の属性をさらに表示する、システム。 - 前記ソートすることは、
決定されたエントロピ範囲にローエンドカットオフを適用し、前記決定されたエントロピ範囲にハイエンドカットオフを適用し、前記ローエンドカットオフおよび前記ハイエンドカットオフに基づいて前記正規化されたエントロピをフィルタリングすることと、
前記フィルタリングされたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングすることとを備える、請求項10に記載のシステム。 - 前記ソートモジュールはさらに、
前記ソートされた1つ以上の属性の表示から1つ以上の属性の選択を受信し、
それに応答して、
前記選択された1つ以上の属性を備えるデータセットを前記データから選択し、
選択された前記データセットの前記1つ以上の属性について前記ソートをし直す、請求項10または11に記載のシステム。 - 前記ソートモジュールはさらに、前記選択可能なデータセットのうちの1つ以上の選択を受信する、請求項10から12のいずれか1項に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462054517P | 2014-09-24 | 2014-09-24 | |
US62/054,517 | 2014-09-24 | ||
US14/678,218 | 2015-04-03 | ||
US14/678,218 US10387494B2 (en) | 2014-09-24 | 2015-04-03 | Guided data exploration |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017515979A Division JP6637968B2 (ja) | 2014-09-24 | 2015-09-22 | ガイド付きデータ探索 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020074105A JP2020074105A (ja) | 2020-05-14 |
JP6862531B2 true JP6862531B2 (ja) | 2021-04-21 |
Family
ID=55525958
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017515979A Active JP6637968B2 (ja) | 2014-09-24 | 2015-09-22 | ガイド付きデータ探索 |
JP2019231678A Active JP6862531B2 (ja) | 2014-09-24 | 2019-12-23 | ガイド付きデータ探索 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017515979A Active JP6637968B2 (ja) | 2014-09-24 | 2015-09-22 | ガイド付きデータ探索 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10387494B2 (ja) |
EP (1) | EP3198489A4 (ja) |
JP (2) | JP6637968B2 (ja) |
CN (1) | CN106605222B (ja) |
WO (1) | WO2016049034A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014228991A (ja) * | 2013-05-21 | 2014-12-08 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US10770171B2 (en) | 2018-04-12 | 2020-09-08 | International Business Machines Corporation | Augmenting datasets using de-identified data and selected authorized records |
US11093640B2 (en) | 2018-04-12 | 2021-08-17 | International Business Machines Corporation | Augmenting datasets with selected de-identified data records |
CN110007989A (zh) * | 2018-12-13 | 2019-07-12 | 国网信通亿力科技有限责任公司 | 数据可视化平台系统 |
CN110362303B (zh) * | 2019-07-15 | 2020-08-25 | 深圳市宇数科技有限公司 | 数据探索方法和系统 |
US11893038B2 (en) | 2021-10-21 | 2024-02-06 | Treasure Data, Inc. | Data type based visual profiling of large-scale database tables |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6012053A (en) | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US6035294A (en) | 1998-08-03 | 2000-03-07 | Big Fat Fish, Inc. | Wide access databases and database systems |
WO2000008539A1 (en) | 1998-08-03 | 2000-02-17 | Fish Robert D | Self-evolving database and method of using same |
US20020138492A1 (en) * | 2001-03-07 | 2002-09-26 | David Kil | Data mining application with improved data mining algorithm selection |
US7383257B2 (en) * | 2003-05-30 | 2008-06-03 | International Business Machines Corporation | Text explanation for on-line analytic processing events |
US7587685B2 (en) | 2004-02-17 | 2009-09-08 | Wallace James H | Data exploration system |
JP2005327172A (ja) | 2004-05-17 | 2005-11-24 | Canon Inc | オブジェクト検索装置(検索式の再構成) |
US9798781B2 (en) | 2005-10-25 | 2017-10-24 | Angoss Software Corporation | Strategy trees for data mining |
US7493330B2 (en) | 2006-10-31 | 2009-02-17 | Business Objects Software Ltd. | Apparatus and method for categorical filtering of data |
US7912875B2 (en) | 2006-10-31 | 2011-03-22 | Business Objects Software Ltd. | Apparatus and method for filtering data using nested panels |
US7873220B2 (en) | 2007-01-03 | 2011-01-18 | Collins Dennis G | Algorithm to measure symmetry and positional entropy of a data set |
US8935249B2 (en) * | 2007-06-26 | 2015-01-13 | Oracle Otc Subsidiary Llc | Visualization of concepts within a collection of information |
US8024327B2 (en) | 2007-06-26 | 2011-09-20 | Endeca Technologies, Inc. | System and method for measuring the quality of document sets |
US8417715B1 (en) | 2007-12-19 | 2013-04-09 | Tilmann Bruckhaus | Platform independent plug-in methods and systems for data mining and analytics |
US8396870B2 (en) * | 2009-06-25 | 2013-03-12 | University Of Tennessee Research Foundation | Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling |
US9183203B1 (en) | 2009-07-01 | 2015-11-10 | Quantifind, Inc. | Generalized data mining and analytics apparatuses, methods and systems |
US20110055246A1 (en) * | 2009-09-01 | 2011-03-03 | Yann Le Biannic | Navigation and visualization of relational database |
US9336263B2 (en) | 2010-06-04 | 2016-05-10 | Yale University | Data loading systems and methods |
US8336539B2 (en) * | 2010-08-03 | 2012-12-25 | Sunpower Corporation | Opposing row linear concentrator architecture |
US9299173B2 (en) | 2011-06-07 | 2016-03-29 | International Business Machines Corporation | Automatic selection of different visualizations for the organization of multivariate data |
JP2013021496A (ja) * | 2011-07-11 | 2013-01-31 | Fujitsu Ltd | 移動局、及び送信制御方法 |
JP2013037515A (ja) | 2011-08-08 | 2013-02-21 | Sony Corp | 情報処理装置、情報処理方法、プログラム、及び情報処理システム |
EP2758781A4 (en) | 2011-09-22 | 2015-05-27 | Bio Rad Laboratories | SYSTEMS AND METHOD FOR BIOCHEMICAL DATA ANALYSIS |
CN104160394B (zh) | 2011-12-23 | 2017-08-15 | 亚马逊科技公司 | 用于半结构化数据的可缩放分析平台 |
US9201934B2 (en) | 2012-10-02 | 2015-12-01 | Oracle International Corporation | Interactive data mining |
US10395215B2 (en) | 2012-10-19 | 2019-08-27 | International Business Machines Corporation | Interpretation of statistical results |
US9934299B2 (en) * | 2012-10-22 | 2018-04-03 | Workday, Inc. | Systems and methods for interest-driven data visualization systems utilizing visualization image data and trellised visualizations |
US9495777B2 (en) | 2013-02-07 | 2016-11-15 | Oracle International Corporation | Visual data analysis for large data sets |
US9390428B2 (en) | 2013-03-13 | 2016-07-12 | Salesforce.Com, Inc. | Systems, methods, and apparatuses for rendering scored opportunities using a predictive query interface |
US20140344235A1 (en) * | 2013-05-17 | 2014-11-20 | Emmanuel Zarpas | Determination of data modification |
-
2015
- 2015-04-03 US US14/678,218 patent/US10387494B2/en active Active
- 2015-05-08 US US14/707,283 patent/US10552484B2/en active Active
- 2015-09-22 JP JP2017515979A patent/JP6637968B2/ja active Active
- 2015-09-22 WO PCT/US2015/051462 patent/WO2016049034A1/en active Application Filing
- 2015-09-22 CN CN201580047313.5A patent/CN106605222B/zh active Active
- 2015-09-22 EP EP15843760.8A patent/EP3198489A4/en not_active Ceased
-
2019
- 2019-12-23 JP JP2019231678A patent/JP6862531B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2016049034A1 (en) | 2016-03-31 |
JP2020074105A (ja) | 2020-05-14 |
CN106605222B (zh) | 2020-09-04 |
US10387494B2 (en) | 2019-08-20 |
US20160085880A1 (en) | 2016-03-24 |
JP6637968B2 (ja) | 2020-01-29 |
CN106605222A (zh) | 2017-04-26 |
JP2017532675A (ja) | 2017-11-02 |
EP3198489A1 (en) | 2017-08-02 |
EP3198489A4 (en) | 2018-02-28 |
US20160085851A1 (en) | 2016-03-24 |
US10552484B2 (en) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6862531B2 (ja) | ガイド付きデータ探索 | |
US11670021B1 (en) | Enhanced graphical user interface for representing events | |
US9972105B2 (en) | Visualization of data clusters | |
US9607048B2 (en) | Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects | |
Pereira et al. | NoSQL real-time database performance comparison | |
US9436919B2 (en) | System and method of tuning item classification | |
Santos et al. | Modelling and implementing big data warehouses for decision support | |
US20150012465A1 (en) | Decision tree learning | |
US9002755B2 (en) | System and method for culture mapping | |
US10140739B1 (en) | User interface for automatically generating charts | |
US20100169326A1 (en) | Method, apparatus and computer program product for providing analysis and visualization of content items association | |
Vijayarani et al. | Research in big data: an overview | |
US9977818B2 (en) | Local extrema based data sampling system | |
CN109614507B (zh) | 一种基于频繁项挖掘的遥感图像推荐装置 | |
US20190205475A1 (en) | Search engine for identifying analogies | |
US10437793B2 (en) | BI cloud services data modeling denormalized table introspection algorithm | |
US20150012563A1 (en) | Data mining using associative matrices | |
US11803761B2 (en) | Analytic insights for hierarchies | |
Cromley et al. | A concentration-based approach to data classification for choropleth mapping | |
CN115098568A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
Pereira et al. | Decision support in big data contexts: a business intelligence solution | |
Azam et al. | Three Steps Strategy to Search for Optimum Classification Trees | |
US20200334876A1 (en) | Visual representation of directional correlation of service health | |
CN117931773A (zh) | 时域天文数据库创建方法、时域天文数据检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200121 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200121 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210219 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210331 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6862531 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |