JP5922805B2 - 進化的な分析のためのシステム - Google Patents
進化的な分析のためのシステム Download PDFInfo
- Publication number
- JP5922805B2 JP5922805B2 JP2014561198A JP2014561198A JP5922805B2 JP 5922805 B2 JP5922805 B2 JP 5922805B2 JP 2014561198 A JP2014561198 A JP 2014561198A JP 2014561198 A JP2014561198 A JP 2014561198A JP 5922805 B2 JP5922805 B2 JP 5922805B2
- Authority
- JP
- Japan
- Prior art keywords
- rewrite
- query
- cost
- views
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title description 11
- 238000000034 method Methods 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 37
- 238000005457 optimization Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000006227 byproduct Substances 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 33
- 238000004422 calculation algorithm Methods 0.000 description 20
- 238000013459 approach Methods 0.000 description 15
- 230000009466 transformation Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24539—Query rewriting; Transformation using cached or materialised query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24547—Optimisations to support specific applications; Extensibility of optimisers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
リライト部は、ノードの出力のためのリライトを探索するとき、注釈中の論理式を用いる。数式は、関係演算子またはUDFsから構成されている。探索中に見つかったリライトのそれぞれでは、リライト部は最適化部を利用して、プランおよび推定コストを取得している。クエリ実行の間、クエリ処理の全ての副産物は、日和見主義的な(opportunistic)実体化ビューとして維持され、システム中で記憶されて、日和見主義的なの物理設計構造の一部となる。実体化ビューメタデータ蓄積部は、ビュー定義のような、現在のシステムにおける実体化ビューに関する情報と、クエリ最適化において用いられる標準データ統計値とを含む。
1.属性を破棄または追加
2.フィルタを適用することによってタプルを破棄
3.タプルのグルーピングを実行
1.BfRewriteは、W中の全てのターゲットについてのリライトの効率的なサーチを実行し、Wnについての全体的に最適なリライトを出力する。
2.ViewFinderは、単一のターゲットについての候補ビューを、それらがターゲットの低コストのリライトを生成する能力に基づいて列挙し、BfRewriteによって利用される。
(a)vは、qによって要求される全ての特性を含む、またはv中にないq中の特性を生み出すために必要な全ての特性を含む。
(b)vは、qよりも弱い選択述語を含んでいる。
(c)vは、qよりも凝集度が低い。
Claims (21)
- 進化的なクエリをサポートする方法であって、
以前のクエリまたはワークフロー実行結果である実体化ビューから、アーチファクトを保持することと、
ユーザ定義関数(UDF)のリライトのサーチをサポートするために、前記UDFのグレーボックスモデルを提供することと、
ワークフロー実行時間を低減するために、アーチファクトを用いるリライトを自動的に生成することと、
リライトの空間を徐々にサーチして、候補ビューの空間をより大きくし、最適なリライトを見つけるためのソリューション空間の最小量をサーチすることと、を含む方法。 - 請求項1に記載の方法であって、
ワークフローの進化、ユーザの進化、およびデータの進化を含む、3つの側面に沿った同時進化をサポートすることを含む、方法。 - 請求項1に記載の方法であって、
前記UDFを含むようにリライト言語を拡張することを含む、方法。 - 請求項1に記載の方法であって、
riが候補ビューvを用いるWiのリライトであり、下限の特性が、OptCost(Wi,v)≦Cost(ri)として決定される場合に、候補ビューvおよびターゲットWiを入力として取得し、vを用いるWiのリライトriの下限を提供する、最適コスト関数OptCost(Wi,v)を決定すること、を含む方法。 - 請求項4に記載の方法であって、
OptCostによって順序付けられた複数の候補ビューのサーチ空間を生成することと、
次の候補ビューのOptCostを提供することと、
前記次の候補ビューを用いて前記ターゲットのリライトを決定することと、を含む方法。 - 請求項1に記載の方法であって、
W内の全てのターゲットについてリライトの効率的なサーチを実行し、Wnについて全体的に最適なリライトを出力し、
単一のターゲットについて、1または複数の候補ビューを、それらが前記ターゲットの低コストリライトを生成する能力に基づいて列挙することによって、
Wの前記最適なリライトr*を決定することを含む方法。 - 請求項1に記載の方法であって、
W内の複数のターゲットにおいて見つかった複数のリライトからなるWのリライトr*を生成することを含み、その間に、計算されたリライトr*が同じクラス内の複数のリライトのうち最小コストを有する、方法。 - 請求項1に記載の方法であって、
Wをプランに対するリライトとして用いることと、
n個の同時サーチ問題をW内の各ターゲットにおいて生成して、より良いリライトを繰り返し探索することと、その間に、各繰り返しが1つのターゲットWiを選択し、Wiにおける候補ビューを試験し、
W内の他のターゲットの探索空間を削る結果、前記より良いリライトを用いることと、を含む方法。 - 請求項1に記載の方法であって、
非構造化データセット上でUDFsの実行を最適化することを含む方法。 - 請求項1に記載の方法であって、
ユーザワークフローの進化について最適化することを含む方法。 - 進化的な分析クエリをサポートするシステムであって、
クエリを受信し、前記クエリを実行プランに変換する最適化部と、
ワークフローの進化、ユーザの進化、およびデータの進化を含む3つの側面に沿った同時進化をサポートするために前記最適化部と接続されたクエリリライト部と、
前記クエリリライト部と接続され、クエリ最適化において用いられる、ビュー定義および標準データ統計値を含む実体化ビューに関する情報を収容する実体化ビューメタデータ格納部と、
前記クエリを実行するために前記クエリリライト部と接続されたクエリ実行エンジンと、を有するシステム。 - 請求項11に記載のシステムであって、
クエリは、大規模なログと、UDFsを含むクエリとを含む基本データに対して表現される、システム。 - 請求項11に記載のシステムであって、
前記最適化部は、システムに認められたUDFsについてのコスト推定値を提供する、システム。 - 請求項11に記載のシステムであって、
前記最適化部は、各プランノードにおける2つのタイプの注釈:(1)計算の論理表現および(2)推定された実行コストを有するプランを生成する、システム。 - 請求項14に記載のシステムであって、
前記リライト部は、ノードの出力に対するリライトを探索するとき、前記注釈中の前記論理表現を用いる、システム。 - 請求項15に記載のシステムであって、
前記論理表現は、UDFsの関係オペレータからなる、システム。 - 請求項15に記載のシステムであって、
前記ノードの出力に対するリライトの探索の間に見つかったリライトのそれぞれについて、前記リライト部はプランおよび推定コストを取得するために前記最適化部を利用する、システム。 - 請求項11に記載のシステムであって、
クエリ実行の間のクエリ処理の副産物が、日和見主義的な実体化ビューとして維持され、日和見主義的な物理設計構造として格納される、システム。 - 請求項11に記載のシステムであって、
候補ビューvおよびターゲットWiを入力として取得し、Wiのリライトriの下限をvを用いて提供し、riが、前記候補ビューvを用いるWiのリライトであり、前記下限の特性がOptCost(Wi,v)≦Cost(ri)として決定される楽観的コスト関数Optを決定するためのコンピュータコードを含む、システム。 - 請求項19に記載のシステムであって、
前記OptCostによって順序付けられた複数の候補ビューの探索空間を生成し、次の候補ビューの前記OptCostを提供し、前記次の候補ビューを用いて前記ターゲットのリライトを決定するためのコンピュータコードを含む、システム。 - 請求項11に記載のシステムであって、
Wをプランに対するリライトとして用い、
n個の同時サーチ問題をW内の各ターゲットにおいて生成して、より良いリライトを繰り返して探索し、その間に、各繰り返しが1つのターゲットWiを選択し、Wiにおける候補ビューを試験し、
他のターゲットの探索空間を削る結果、前記より良いリライトを用いるためのコンピュータコードを含むシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261664971P | 2012-06-27 | 2012-06-27 | |
US61/664,971 | 2012-06-27 | ||
US13/890,359 US9183253B2 (en) | 2012-06-27 | 2013-05-09 | System for evolutionary analytics |
US13/890,359 | 2013-05-09 | ||
PCT/US2013/043532 WO2014003970A1 (en) | 2012-06-27 | 2013-05-31 | System for evolutionary analytics |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015515671A JP2015515671A (ja) | 2015-05-28 |
JP5922805B2 true JP5922805B2 (ja) | 2016-05-24 |
Family
ID=49779245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014561198A Active JP5922805B2 (ja) | 2012-06-27 | 2013-05-31 | 進化的な分析のためのシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9183253B2 (ja) |
EP (1) | EP2810186A4 (ja) |
JP (1) | JP5922805B2 (ja) |
CN (1) | CN104137095B (ja) |
WO (1) | WO2014003970A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103262076A (zh) * | 2011-01-25 | 2013-08-21 | 惠普发展公司,有限责任合伙企业 | 分析数据处理 |
US9355145B2 (en) | 2011-01-25 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | User defined function classification in analytical data processing systems |
US9383982B2 (en) * | 2012-09-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Data-parallel computation management |
US10459767B2 (en) * | 2014-03-05 | 2019-10-29 | International Business Machines Corporation | Performing data analytics utilizing a user configurable group of reusable modules |
US9870295B2 (en) * | 2014-07-18 | 2018-01-16 | General Electric Company | Automation of workflow creation and failure recovery |
US10102029B2 (en) | 2015-06-30 | 2018-10-16 | International Business Machines Corporation | Extending a map-reduce framework to improve efficiency of multi-cycle map-reduce jobs |
US11120021B2 (en) * | 2017-01-11 | 2021-09-14 | Facebook, Inc. | Systems and methods for optimizing queries |
CN108255979A (zh) * | 2017-12-28 | 2018-07-06 | 山东浪潮商用系统有限公司 | 一种数据汇总方法、数据汇总平台及系统 |
US11694289B2 (en) | 2020-06-30 | 2023-07-04 | Cerner Innovation, Inc. | System and method for conversion achievement |
US12117999B2 (en) * | 2021-09-29 | 2024-10-15 | International Business Machines Corporation | Masking shard operations in distributed database systems |
US20230297573A1 (en) * | 2022-03-21 | 2023-09-21 | Oracle International Corporation | Workload-aware data placement advisor for olap database systems |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2326513C (en) * | 1998-03-27 | 2009-06-16 | Informix Software, Inc. | Processing precomputed views |
CA2249096C (en) * | 1998-09-30 | 2001-12-04 | Ibm Canada Limited-Ibm Canada Limitee | Method for determining optimal database materializations using a query optimizer |
US20060047696A1 (en) * | 2004-08-24 | 2006-03-02 | Microsoft Corporation | Partially materialized views |
CN1763744A (zh) * | 2004-08-24 | 2006-04-26 | 微软公司 | 局部物化视图 |
US20070143246A1 (en) * | 2005-12-15 | 2007-06-21 | International Business Machines Corporation | Method and apparatus for analyzing the effect of different execution parameters on the performance of a database query |
US8204876B2 (en) * | 2006-03-13 | 2012-06-19 | Oracle International Corporation | Dynamic materialized view ranging |
US7644062B2 (en) * | 2006-03-15 | 2010-01-05 | Oracle International Corporation | Join factorization of union/union all queries |
US8060391B2 (en) * | 2006-04-07 | 2011-11-15 | The University Of Utah Research Foundation | Analogy based workflow identification |
US7693820B2 (en) * | 2006-04-21 | 2010-04-06 | Microsoft Corporation | Use of materialized transient views in query optimization |
US7606827B2 (en) * | 2006-12-14 | 2009-10-20 | Ianywhere Solutions, Inc. | Query optimization using materialized views in database management systems |
US7844600B2 (en) * | 2007-07-13 | 2010-11-30 | Oracle International Corp. | Materialized views with user-defined aggregates |
JP5181283B2 (ja) * | 2008-06-30 | 2013-04-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ処理装置、ワークフローシステム、データ処理方法及びコンピュータプログラム |
US7991765B2 (en) * | 2008-07-31 | 2011-08-02 | Teradata Us, Inc. | Cost-based query rewrite using materialized views |
WO2010045143A2 (en) * | 2008-10-16 | 2010-04-22 | The University Of Utah Research Foundation | Automated development of data processing results |
US9305057B2 (en) * | 2009-12-28 | 2016-04-05 | Oracle International Corporation | Extensible indexing framework using data cartridges |
-
2013
- 2013-05-09 US US13/890,359 patent/US9183253B2/en active Active
- 2013-05-31 WO PCT/US2013/043532 patent/WO2014003970A1/en active Application Filing
- 2013-05-31 CN CN201380011695.7A patent/CN104137095B/zh active Active
- 2013-05-31 EP EP13809882.7A patent/EP2810186A4/en not_active Ceased
- 2013-05-31 JP JP2014561198A patent/JP5922805B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2014003970A1 (en) | 2014-01-03 |
JP2015515671A (ja) | 2015-05-28 |
CN104137095B (zh) | 2017-10-20 |
CN104137095A (zh) | 2014-11-05 |
US20140006383A1 (en) | 2014-01-02 |
EP2810186A4 (en) | 2015-11-11 |
EP2810186A1 (en) | 2014-12-10 |
US9183253B2 (en) | 2015-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5922805B2 (ja) | 進化的な分析のためのシステム | |
US11620574B2 (en) | Holistic optimization for accelerating iterative machine learning | |
Kim et al. | Taming subgraph isomorphism for RDF query processing | |
JP5559636B2 (ja) | 情報サーベイのための方法及び装置 | |
US8423569B2 (en) | Decomposed query conditions | |
US20070214135A1 (en) | Partitioning of data mining training set | |
Thakkar et al. | Composing, optimizing, and executing plans for bioinformatics web services | |
LeFevre et al. | Opportunistic physical design for big data analytics | |
Bruno et al. | Polynomial heuristics for query optimization | |
Sevenich et al. | Using domain-specific languages for analytic graph databases | |
Zhang et al. | Recognizing patterns in streams with imprecise timestamps | |
Martínez-Cruz et al. | Flexible queries on relational databases using fuzzy logic and ontologies | |
Stadler et al. | Sparklify: A scalable software component for efficient evaluation of sparql queries over distributed rdf datasets | |
WO2021248319A1 (en) | Database management system and method for graph view selection for relational-graph database | |
US20130060753A1 (en) | Optimization Method And Apparatus | |
US20100036804A1 (en) | Maintained and Reusable I/O Value Caches | |
CN106445913A (zh) | 基于MapReduce的语义推理方法及系统 | |
Fegaras et al. | Compile-time code generation for embedded data-intensive query languages | |
Glake et al. | Towards Polyglot Data Stores--Overview and Open Research Questions | |
Hussain et al. | A methodology to rank the design patterns on the base of text relevancy | |
Shmeis et al. | A rewrite-based optimizer for spark | |
Rivero et al. | On isomorphic matching of large disk-resident graphs using an XQuery engine | |
Nikolov et al. | Ephedra: Efficiently combining RDF data and services using SPARQL federation | |
WO2021206829A1 (en) | Transforming queries using bitvector aware optimization | |
LeFevre et al. | Exploiting opportunistic physical design in large-scale data analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160414 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5922805 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |