JP7444269B2 - テーブル統合システム、方法およびプログラム - Google Patents
テーブル統合システム、方法およびプログラム Download PDFInfo
- Publication number
- JP7444269B2 JP7444269B2 JP2022546787A JP2022546787A JP7444269B2 JP 7444269 B2 JP7444269 B2 JP 7444269B2 JP 2022546787 A JP2022546787 A JP 2022546787A JP 2022546787 A JP2022546787 A JP 2022546787A JP 7444269 B2 JP7444269 B2 JP 7444269B2
- Authority
- JP
- Japan
- Prior art keywords
- column
- join
- candidate
- correlation
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 103
- 230000010354 integration Effects 0.000 title claims description 44
- 230000002596 correlated effect Effects 0.000 claims description 38
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000000875 corresponding effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 description 48
- 239000013598 vector Substances 0.000 description 46
- 238000010586 diagram Methods 0.000 description 26
- 238000010276 construction Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 11
- 238000009826 distribution Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の第一の実施形態を説明する。第一の実施形態では、対象とするカラムに結合可能なテーブルを特定するためのコストを低減させることを目標とする。図1は、本発明による結合テーブル特定システムの一実施形態の構成例を示すブロック図である。本実施形態の結合テーブル特定システム100は、結合元のテーブル(すなわち、ベーステーブル)に結合可能な外部テーブル(以下、結合テーブルと記す。)を特定するシステムである。より具体的には、結合テーブルは、ベーステーブルに含まれるいずれかのカラムと結合可能なカラムを含むテーブルである。
次に、本発明の第二の実施形態を説明する。第二の実施形態では、対象カラムのデータに相関のあるデータから成るカラムを含むテーブルを高速に特定することを目標とする。図7は、本発明による相関テーブル特定システムの一実施形態の構成例を示すブロック図である。本実施形態の相関テーブル特定システム200は、対象カラムと相関のあるカラムを含む外部テーブル(以下、相関テーブルと記す。)を特定するシステムである。
-サイズ2の相関索引:A[1,2]、 B[0,3]
-サイズ4の相関索引:A[1,2,3,4]、 B[0,3,4,5]
-サイズ6の相関索引:A[1,2,3,4,5,7]、B[0,3,4,5,7,9]
-サイズ2の相関索引:P1[0,1]、P2[3,4]、P3[1,2]、P4[0,1]
-サイズ4の相関索引:P1[0,1,2,3]、P2[3,4,5,6]、P3[1,2,3,3]
-サイズ6の相関索引:P1[0,1,2,3,4,5]
次に、本発明の第三の実施形態を説明する。第三の実施形態では、対象とするカラムを含むテーブルに対し、相関のあるデータを効率的に統合することを目標とする。図13は、本発明によるテーブル統合システムの一実施形態の構成例を示すブロック図である。本実施形態のテーブル統合システム300は、ベーステーブルに含まれる対象カラムと相関のあるカラムを統合するシステムである。
次に、本発明の第四の実施形態を説明する。第四の実施形態では、第一の実施形態から第三の実施形態までのシステムを組み合わせて、対象とするカラムを含むテーブルに対し、相関のあるデータを効率的に統合する方法を説明する。
前記対象カラムのデータと相関があるデータを含むカラムである候補カラムを記憶する候補カラム記憶手段と、
前記ベーステーブルと前記候補カラムとを結合した統合テーブルを生成する統合テーブル生成装置とを備え、
前記結合テーブル生成装置は、
前記結合テーブル、前記候補カラム、および、前記ベーステーブルの入力を受け付ける入力手段と、
前記結合テーブルのうち前記候補カラムに対応するカラムを前記ベーステーブルに結合する結合手段と、
結合された前記候補カラムに含まれるデータに基づいて、前記タスクの性能を向上させる特徴量を選択する特徴量選択手段と、
選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する統合テーブル出力手段とを含む
ことを特徴とするテーブル統合システム。
付記1記載のテーブル統合システム。
付記1または付記2記載のテーブル統合システム。
付記1から付記3のうちのいずれか1つに記載のテーブル統合システム。
前記特徴量加工手段は、選択された各カラムをクラスタリングし、クラスタ化されたカラム集合ごとに特徴量を生成し、
特徴量選択手段は、結合された候補カラムに含まれるデータおよび生成された特徴量の中から、タスクの性能を向上させる特徴量を選択する
付記1から付記4のうちのいずれか1つに記載のテーブル統合システム。
前記対象カラムのデータと相関があるデータを含むカラムである候補カラムを記憶する候補カラム記憶手段から当該候補カラムの入力を受け付け、
前記ベーステーブルの入力を受け付け、
前記結合テーブルのうち前記候補カラムに対応するカラムを前記ベーステーブルに結合し、
結合された前記候補カラムに含まれるデータに基づいて、前記タスクの性能を向上させる特徴量を選択し、
選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する
ことを特徴とするテーブル統合方法。
付記6記載のテーブル統合方法。
想定するタスクで対象とするデータからなるカラムである対象カラムを含むベーステーブルに結合可能なテーブルである結合テーブルを記憶する結合テーブル記憶手段から、当該結合テーブルの入力を受け付ける第一入力処理、
前記対象カラムのデータと相関があるデータを含むカラムである候補カラムを記憶する候補カラム記憶手段から当該候補カラムの入力を受け付ける第二入力処理、
前記ベーステーブルの入力を受け付ける第三入力処理、
前記結合テーブルのうち前記候補カラムに対応するカラムを前記ベーステーブルに結合する結合処理、
結合された前記候補カラムに含まれるデータに基づいて、前記タスクの性能を向上させる特徴量を選択する特徴量選択処理、および、
選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する統合テーブル出力処理
を実行させるためのテーブル統合プログラムを記憶するプログラム記憶媒体。
第三入力処理で、ベーステーブルの入力および対象カラムの指定を受け付けさせ、
第一入力処理で、前記ベーステーブルの結合テーブルを結合テーブル記憶手段から取得させ、
第二入力処理で、前記対象カラムの候補カラムを候補カラム記憶手段から取得させる
テーブル統合プログラムを記憶する付記8記載のプログラム記憶媒体。
想定するタスクで対象とするデータからなるカラムである対象カラムを含むベーステーブルに結合可能なテーブルである結合テーブルを記憶する結合テーブル記憶手段から、当該結合テーブルの入力を受け付ける第一入力処理、
前記対象カラムのデータと相関があるデータを含むカラムである候補カラムを記憶する候補カラム記憶手段から当該候補カラムの入力を受け付ける第二入力処理、
前記ベーステーブルの入力を受け付ける第三入力処理、
前記結合テーブルのうち前記候補カラムに対応するカラムを前記ベーステーブルに結合する結合処理、
結合された前記候補カラムに含まれるデータに基づいて、前記タスクの性能を向上させる特徴量を選択する特徴量選択処理、および、
選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する統合テーブル出力処理
を実行させるためのテーブル統合プログラム。
20 テーブル記憶装置
21 結合テーブル記憶部
22 相関テーブル記憶部
100 結合テーブル特定システム
110 結合索引構築装置
112 結合カラム候補抽出部
114 結合索引生成部
120 結合索引記憶部
130 結合テーブル探索装置
132 入力部
134 検索プラン生成部
136 レコード検索部
138 結合テーブル出力部
140 結合テーブル記憶部
200 相関テーブル特定システム
210 相関索引構築装置
212 非結合カラム候補抽出部
214 相関索引生成部
220 相関索引記憶部
230 相関テーブル探索装置
232 入力部
234 索引特定部
236 候補カラム検索部
238 相関テーブル出力部
240 相関テーブル記憶部
300 テーブル統合システム
310 統合テーブル生成装置
312 入力部
314 テーブル結合部
316 特徴量加工部
318 特徴量選択部
320 統合テーブル出力部
330 統合テーブル記憶部
400 外部データ活用システム
Claims (9)
- 想定するタスクで対象とするデータからなるカラムである対象カラムを含むベーステーブルに結合可能なテーブルである結合テーブルを記憶する結合テーブル記憶手段と、
前記対象カラムのデータと相関があるデータを含むカラムである候補カラムを記憶する候補カラム記憶手段と、
前記ベーステーブルと前記候補カラムとを結合した統合テーブルを生成する統合テーブル生成装置とを備え、
前記統合テーブル生成装置は、
前記結合テーブル、前記候補カラム、および、前記ベーステーブルの入力を受け付ける入力手段と、
前記結合テーブルのうち前記候補カラムに対応するカラムを前記ベーステーブルに結合する結合手段と、
結合された前記候補カラムに含まれるデータに基づいて、前記タスクの性能を向上させる特徴量を選択する特徴量選択手段と、
選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する統合テーブル出力手段とを含む
ことを特徴とするテーブル統合システム。 - 入力手段は、ベーステーブルの入力および対象カラムの指定を受け付け、前記ベーステーブルの結合テーブルを結合テーブル記憶手段から取得し、前記対象カラムの候補カラムを候補カラム記憶手段から取得する
請求項1記載のテーブル統合システム。 - 特徴量選択手段は、対象カラムのデータの予測を行うタスクの性能を向上させる特徴量を選択する
請求項1または請求項2記載のテーブル統合システム。 - 特徴量選択手段は、指定された対象カラムのデータを目的変数とし、候補カラムのデータを特徴量とするモデルを学習し、予め定められた評価方法に基づいて学習されたモデルを評価し、前記評価方法により算出される評価指標を向上させる特徴量を選択する
請求項1から請求項3のうちのいずれか1項に記載のテーブル統合システム。 - 前記統合テーブル生成装置は、選択された各カラムのデータから特徴量を生成する特徴量加工手段を含み、
前記特徴量加工手段は、選択された各カラムをクラスタリングし、クラスタ化されたカラム集合ごとに特徴量を生成し、
特徴量選択手段は、結合された候補カラムに含まれるデータおよび生成された特徴量の中から、タスクの性能を向上させる特徴量を選択する
請求項1から請求項4のうちのいずれか1項に記載のテーブル統合システム。 - コンピュータが、想定するタスクで対象とするデータからなるカラムである対象カラムを含むベーステーブルに結合可能なテーブルである結合テーブルを記憶する結合テーブル記憶手段から、当該結合テーブルの入力を受け付け、
前記コンピュータが、前記対象カラムのデータと相関があるデータを含むカラムである候補カラムを記憶する候補カラム記憶手段から当該候補カラムの入力を受け付け、
前記コンピュータが、前記ベーステーブルの入力を受け付け、
前記コンピュータが、前記結合テーブルのうち前記候補カラムに対応するカラムを前記ベーステーブルに結合し、
前記コンピュータが、結合された前記候補カラムに含まれるデータに基づいて、前記タスクの性能を向上させる特徴量を選択し、
前記コンピュータが、選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する
ことを特徴とするテーブル統合方法。 - コンピュータが、ベーステーブルの入力および対象カラムの指定を受け付け、前記ベーステーブルの結合テーブルを結合テーブル記憶手段から取得し、前記対象カラムの候補カラムを候補カラム記憶手段から取得する
請求項6記載のテーブル統合方法。 - コンピュータに、
想定するタスクで対象とするデータからなるカラムである対象カラムを含むベーステーブルに結合可能なテーブルである結合テーブルを記憶する結合テーブル記憶手段から、当該結合テーブルの入力を受け付ける第一入力処理、
前記対象カラムのデータと相関があるデータを含むカラムである候補カラムを記憶する候補カラム記憶手段から当該候補カラムの入力を受け付ける第二入力処理、
前記ベーステーブルの入力を受け付ける第三入力処理、
前記結合テーブルのうち前記候補カラムに対応するカラムを前記ベーステーブルに結合する結合処理、
結合された前記候補カラムに含まれるデータに基づいて、前記タスクの性能を向上させる特徴量を選択する特徴量選択処理、および、
選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する統合テーブル出力処理
を実行させるためのテーブル統合プログラム。 - コンピュータに、
第三入力処理で、ベーステーブルの入力および対象カラムの指定を受け付けさせ、
第一入力処理で、前記ベーステーブルの結合テーブルを結合テーブル記憶手段から取得させ、
第二入力処理で、前記対象カラムの候補カラムを候補カラム記憶手段から取得させる
請求項8記載のテーブル統合プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/033310 WO2022049682A1 (ja) | 2020-09-02 | 2020-09-02 | テーブル統合システム、方法およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022049682A1 JPWO2022049682A1 (ja) | 2022-03-10 |
JPWO2022049682A5 JPWO2022049682A5 (ja) | 2023-05-23 |
JP7444269B2 true JP7444269B2 (ja) | 2024-03-06 |
Family
ID=80491872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022546787A Active JP7444269B2 (ja) | 2020-09-02 | 2020-09-02 | テーブル統合システム、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230237039A1 (ja) |
JP (1) | JP7444269B2 (ja) |
WO (1) | WO2022049682A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180096000A1 (en) | 2016-09-15 | 2018-04-05 | Gb Gas Holdings Limited | System for analysing data relationships to support data query execution |
-
2020
- 2020-09-02 WO PCT/JP2020/033310 patent/WO2022049682A1/ja active Application Filing
- 2020-09-02 US US18/023,830 patent/US20230237039A1/en active Pending
- 2020-09-02 JP JP2022546787A patent/JP7444269B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180096000A1 (en) | 2016-09-15 | 2018-04-05 | Gb Gas Holdings Limited | System for analysing data relationships to support data query execution |
Non-Patent Citations (3)
Title |
---|
CHEPURKO, Nadiia et al.,ARDA: Automatic Relational Data Augmentation for Machine Learning [online],Cornell University,2020年03月21日,pp.1-15,[検索日:2020.11.02], Internet<URL:https://arxiv.org/abs/2003.09758> |
HE, Yeye et al.,SEMA-JOIN: Joining Semantically-Related Tables Using Big Table Corpora,Proceedings of the VLDB Endowment,2015 VLDB Endowment,2015年08月,Vol.8, No.12,pp.1358-1369 |
ZHU, Erkang et al.,JOSIE: Overlap Set Similarity Search for Finding Joinable Tables in Data Lakes,SIGMOD '19: Proceedings of the 2019 International Conference on Management of Data,ACM,2019年06月,pp.847-864 |
Also Published As
Publication number | Publication date |
---|---|
US20230237039A1 (en) | 2023-07-27 |
WO2022049682A1 (ja) | 2022-03-10 |
JPWO2022049682A1 (ja) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | ProtDet-CCH: protein remote homology detection by combining long short-term memory and ranking methods | |
MX2012011923A (es) | Asignacion de atributis aplicables para datos que describen la identidad personal. | |
JP2022037955A (ja) | 学習モデルを選択するシステム | |
JP2019184852A (ja) | データ分析サーバ、データ分析システム、及びデータ分析方法 | |
Satish et al. | Big data processing with harnessing hadoop-MapReduce for optimizing analytical workloads | |
JP5780036B2 (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
KR102438923B1 (ko) | 시계열 분포 특징을 고려한 딥러닝 기반 비트코인 블록 데이터 예측 시스템 | |
JP7444269B2 (ja) | テーブル統合システム、方法およびプログラム | |
Yi et al. | A method for entity resolution in high dimensional data using ensemble classifiers | |
JP7424501B2 (ja) | 結合テーブル特定システム、結合テーブル探索装置、方法およびプログラム | |
Qinl et al. | Synthesizing Privacy Preserving Entity Resolution Datasets | |
JP7485057B2 (ja) | 相関索引構築装置、相関テーブル探索装置、方法およびプログラム | |
CN116186298A (zh) | 信息检索方法和装置 | |
Abinaya et al. | Effective Feature Selection For High Dimensional Data using Fast Algorithm | |
Paganelli et al. | Evaluating the integration of datasets | |
JP4346531B2 (ja) | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム | |
JP2021152751A (ja) | 分析支援装置及び分析支援方法 | |
JP6677624B2 (ja) | 分析装置、分析方法、および分析プログラム | |
Kumar et al. | ARSkNN-A k-NN classifier using mass based similarity measure | |
CN117633328B (zh) | 基于数据挖掘的新媒体内容监测方法及系统 | |
CN116228484B (zh) | 基于量子聚类算法的课程组合方法及装置 | |
US20230351264A1 (en) | Storage medium, accuracy calculation method, and information processing device | |
WO2024069941A1 (ja) | 情報処理装置、検索方法、及び検索プログラム | |
Wang et al. | Fashion Label Relation Networks for Attribute Recognition | |
Akila et al. | Executing the Apriori Hybrid Algorithm in Semi-structured Mining Datasets and Comparison with HD Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240205 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7444269 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |