JP6964384B2 - 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム - Google Patents
異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム Download PDFInfo
- Publication number
- JP6964384B2 JP6964384B2 JP2017115395A JP2017115395A JP6964384B2 JP 6964384 B2 JP6964384 B2 JP 6964384B2 JP 2017115395 A JP2017115395 A JP 2017115395A JP 2017115395 A JP2017115395 A JP 2017115395A JP 6964384 B2 JP6964384 B2 JP 6964384B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- similarity
- field
- fields
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記第一のデータストア内の第一のテーブルの第一のフィールドに対するクエリーを受信するステップと、前記グラフ形式データに基づいて前記第一のフィールドに類似する第二のフィールドを識別するステップと、前記第二のフィールドを含む第二のデータストアに関する情報を表示するステップと、前記クエリーに応じて前記第一のデータストアに関する情報の表示と前記第二のデータストアに関する情報の表示とを並列的に更新するステップとを含む方法を提供することで前記課題に対応する。
並列的なクエリーに応答して、各データストアに対応する画面上の表示を更新する。たとえば、ユーザーがあるデータストアに対して照会期間の絞り込みを行なうクエリーを送信すると、それ以外のデータストアに対しても同等のクエリーが発行され、それぞれの画面表示を変更することができ、データ分析を行なうユーザーの利便性を向上できる。
図12に、特定の実施例の実装に適したコンピューティング・デバイス(1205)を含むコンピューティング環境(1200)の例を示す。コンピューティング環境(1200)中のコンピューティング・デバイス(1205)は一つ以上の処理ユニット、コア、または、プロセッサ(1210)、メモリ(1215)(たとえば、RAM、ROM等)、内部ストレージ(1220)(たとえば、磁気ディスク、光学ディスク、半導体ストレージ、有機ストレージ)、I/Oインターフェース(1225)を含んでいてよく、それらは、情報のやり取りのためにコミュニケーション機構またはバス(1230)上で接続されていてよく、コンピューティング・デバイス(1205)に埋め込まれていてもよい。
Claims (16)
- 複数のデータストア内のテーブル内の複数のフィールド内の文字列の集合から重複を排除するステップと、
前記重複を排除した文字列を保存するステップと、
前記保存された文字列間の類似性を判定するステップと、
前記判定された文字列間の類似性に基づいて前記複数のフィールド間の類似性を判定するステップと、
前記複数のフィールド間の類似性が高いと判定されたフィールドを含むテーブル間の類似関係を表現したデータを生成するステップとを
含むコンピューターにより実行される方法。 - 前記類似性を判定するステップは、さらに、
前記複数のフィールド内の文字列を分割するステップと、
前記文字列間の類似度を求めるステップとを含む、
請求項1に記載の方法。 - 前記類似性を判定するステップは、さらに、
前記複数のフィールド内の文字列の集合を一時的テーブルに保存するステップと、
前記テーブルに自然結合演算を適用するステップと、
前記テーブル間の類似度を計算するステップとを
含む請求項1に記載の方法。 - さらに、前記複数のデータストア内のテーブル内の複数のフィールド内のデータの属性に基づいて前記フィールド間の類似性を判定するステップを含み、
前記属性は、濃度、個別値の数、ヒストグラムの境界、ヌル値の数、または、非ヌル値の数のいずれかひとつ以上である、
請求項1、請求項2、または、請求項3に記載の方法。 - 請求項1、請求項2、請求項3、または、請求項4に記載の方法で作成された前記テーブル間の類似関係を表現したデータを使用した、コンピューターにより実行される方法であって、
第一のデータストア内の第一のテーブルの第一のフィールドに対するクエリーを受信するステップと、
前記テーブル間の類似関係を表現したデータに基づいて前記第一のフィールドに類似する第二のフィールドを識別するステップと、
前記第二のフィールドと前記第二のフィールドを含む第二のテーブルと前記第二のテーブルを含む第二のデータストアとのいずれかひとつ以上を表示するステップとを含む方法。 - 請求項1、請求項2、請求項3、または、請求項4に記載の方法で作成された前記テーブル間の類似関係を表現したデータを使用した、コンピューターにより実行される方法であって、
第一のデータストアに関する情報を表示するステップと、
前記第一のデータストア内の第一のテーブルの第一のフィールドに対するクエリーを受信するステップと、
前記テーブル間の類似関係を表現したデータに基づいて前記第一のフィールドに類似する第二のフィールドを識別するステップと、
前記第二のフィールドを含む第二のデータストアに関する情報を表示するステップと、
前記クエリーに応じて前記第一のデータストアに関する情報の表示と前記第二のデータストアに関する情報の表示とを並列的に更新するステップとを含む方法。 - 請求項1、請求項2、請求項3、または、請求項4に記載の方法で作成された前記テーブル間の類似関係を表現したデータを使用した、コンピューターにより実行される方法であって、
第一のデータストア内の第一のテーブルの第一のフィールドに対するクエリーを受信するステップと、
前記テーブル間の類似関係を表現したデータに基づいて前記第一のフィールドに類似する第二のフィールドを識別するステップと、
前記第一のデータストアに対する前記クエリーの結果と、前記第二のフィールドを含む第二のテーブルを含む第二のデータストアに対する前記クエリーの結果とを組み合わせて同一画面上に表示するステップとを含む方法。 - 請求項1、請求項2、請求項3、または、請求項4に記載の方法で保存された文字列を使用した、コンピューターにより実行される方法であって、
ユーザーからのキーワードを受信するステップと、
前記保存された文字列から前記キーワードを含むフィールドを含むテーブルを検索するステップと、
前記フィールド、または、前記テーブルを表示するステップとを
含むコンピューターにより実行される方法。 - 複数のデータストア内のテーブル内の複数のフィールド内の文字列の集合から重複を排除する命令群と、
前記重複を排除した文字列を保存する命令群と、
前記保存された文字列間の類似性を判定する命令群と、
前記判定された文字列間の類似性に基づいて前記複数のフィールド間の類似性を判定する命令群と、
前記複数のフィールド間の類似性が高いと判定されたフィールドを含むテーブル間の類似関係を表現したデータを生成する命令群とを
コンピューターに実行させるプログラム。 - 前記類似性を判定する命令群は、さらに、
前記複数のフィールド内の文字列を分割する命令群と、
前記文字列間の類似度を求める命令群とを含む、
請求項9に記載のプログラム。 - 前記類似性を判定する命令群は、さらに、
前記複数のフィールド内の文字列の集合を一時的テーブルに保存する命令群と、
前記テーブルに自然結合演算を適用する命令群と、
前記テーブル間の類似度を計算する命令群とを含む、
請求項9に記載のプログラム。 - さらに、前記複数のデータストア内のテーブル内の複数のフィールド内のデータの属性に基づいて前記フィールド間の類似性を判定する命令群とをコンピューターに実行させ、
前記属性は、濃度、個別値の数、ヒストグラムの境界、ヌル値の数、または、非ヌル値の数のいずれかひとつ以上である、
請求項9、請求項10、または、請求項11に記載のプログラム。 - 請求項9、請求項10、請求項11、または、請求項12に記載のプログラムで作成された前記テーブル間の類似関係を表現したデータを使用したプログラムであって、
第一のデータストア内の第一のテーブルの第一のフィールドに対するクエリーを受信する命令群と、
前記テーブル間の類似関係を表現したデータに基づいて前記第一のフィールドに類似する第二のフィールドを識別する命令群と、
前記第二のフィールドと前記第二のフィールドを含む第二のテーブルと前記第二のテーブルを含む第二のデータストアとのいずれかひとつ以上を表示する命令群とを
コンピューターに実行させるプログラム。 - 請求項9、請求項10、請求項11、または、請求項12に記載のプログラムで作成された前記テーブル間の類似関係を表現したデータを使用したプログラムであって、
第一のデータストアに関する情報を表示する命令群と、
前記第一のデータストア内の第一のテーブルの第一のフィールドに対するクエリーを受信する命令群と、
前記テーブル間の類似関係を表現したデータに基づいて前記第一のフィールドに類似する第二のフィールドを識別する命令群と、
前記第二のフィールドを含む第二のデータストアに関する情報を表示する命令群と、
前記クエリーに応じて前記第一のデータストアに関する情報の表示と前記第二のデータストアに関する情報の表示とを並列的に更新する命令群とを
コンピューターに実行させるプログラム。 - 請求項9、請求項10、請求項11、または、請求項12に記載のプログラムで作成された前記テーブル間の類似関係を表現したデータを使用したプログラムであって、
第一のデータストア内の第一のテーブルの第一のフィールドに対するクエリーを受信する命令群と、
前記テーブル間の類似関係を表現したデータに基づいて前記第一のフィールドに類似する第二のフィールドを識別する命令群と、
前記第一のデータストアに対する前記クエリーの結果と、前記第二のフィールドを含む第二のテーブルを含む第二のデータストアに対する前記クエリーの結果とを組み合わせて同一画面上に表示する命令群とを
コンピューターに実行させるプログラム。 - 請求項9、請求項10、請求項11、または、請求項12に記載のプログラムで保存された文字列を使用したプログラムであって、
ユーザーからのキーワードを受信する命令群と、
前記保存された文字列文字列から前記キーワードを含むフィールドを含むテーブルを検索する命令群と、
前記フィールド、または、前記テーブルを表示する命令群とを
コンピューターに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662315784P | 2016-03-31 | 2016-03-31 | |
US62/315,784 | 2016-03-31 | ||
JP2017523549A JP6159908B6 (ja) | 2016-03-31 | 2017-03-27 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017523549A Division JP6159908B6 (ja) | 2016-03-31 | 2017-03-27 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017188137A JP2017188137A (ja) | 2017-10-12 |
JP2017188137A5 JP2017188137A5 (ja) | 2020-09-24 |
JP6964384B2 true JP6964384B2 (ja) | 2021-11-10 |
Family
ID=59965634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017115395A Active JP6964384B2 (ja) | 2016-03-31 | 2017-06-12 | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190317938A1 (ja) |
JP (1) | JP6964384B2 (ja) |
WO (1) | WO2017170459A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11829391B2 (en) * | 2019-01-14 | 2023-11-28 | Salesforce, Inc. | Systems, methods, and apparatuses for executing a graph query against a graph representing a plurality of data stores |
KR20200094853A (ko) | 2019-01-25 | 2020-08-10 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN110879901B (zh) * | 2019-11-22 | 2022-03-18 | 浙江大学 | 一种基于关系图谱的数据自适应脱敏方法及系统 |
CN111767320B (zh) * | 2020-06-29 | 2023-08-18 | 中国银行股份有限公司 | 数据血缘关系确定方法及装置 |
WO2022049681A1 (ja) | 2020-09-02 | 2022-03-10 | 日本電気株式会社 | 相関索引構築装置、相関テーブル探索装置、方法およびプログラム |
WO2022049680A1 (ja) * | 2020-09-02 | 2022-03-10 | 日本電気株式会社 | 結合テーブル特定システム、結合テーブル探索装置、方法およびプログラム |
JP7494090B2 (ja) | 2020-10-29 | 2024-06-03 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
KR102576146B1 (ko) * | 2020-11-20 | 2023-09-07 | 주식회사 와이즈넛 | 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법 |
CN113656372B (zh) * | 2021-08-13 | 2022-06-21 | 南方电网数字电网研究院有限公司 | 标准指标库数据集市架构装置及方法 |
CN113656650A (zh) * | 2021-08-16 | 2021-11-16 | 智慧芽信息科技(苏州)有限公司 | 数据融合方法及装置、电子设备和存储介质 |
US11636085B2 (en) | 2021-09-01 | 2023-04-25 | International Business Machines Corporation | Detection and utilization of similarities among tables in different data systems |
CN113760918A (zh) * | 2021-09-13 | 2021-12-07 | 上海航空工业(集团)有限公司 | 一种确定数据血缘关系的方法、装置、计算机设备和介质 |
CN116483840B (zh) * | 2023-06-19 | 2023-11-07 | 广东奥飞数据科技股份有限公司 | 一种基于分布式计算的多源异构数据集成系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222430A (ja) * | 1999-02-03 | 2000-08-11 | Osaka Gas Co Ltd | 仮想データベース管理システム |
JP2004227037A (ja) * | 2003-01-20 | 2004-08-12 | Sangaku Renkei Kiko Kyushu:Kk | フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法 |
JP4451624B2 (ja) * | 2003-08-19 | 2010-04-14 | 富士通株式会社 | 情報体系対応付け装置および対応付け方法 |
JP4997856B2 (ja) * | 2006-07-19 | 2012-08-08 | 富士通株式会社 | データベース分析プログラム、データベース分析装置、データベース分析方法 |
JP5194818B2 (ja) * | 2008-01-16 | 2013-05-08 | 富士通株式会社 | データ分類方法およびデータ処理装置 |
US9507824B2 (en) * | 2014-08-22 | 2016-11-29 | Attivio Inc. | Automated creation of join graphs for unrelated data sets among relational databases |
-
2017
- 2017-03-27 US US16/089,532 patent/US20190317938A1/en not_active Abandoned
- 2017-03-27 WO PCT/JP2017/012496 patent/WO2017170459A1/ja active Application Filing
- 2017-06-12 JP JP2017115395A patent/JP6964384B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017188137A (ja) | 2017-10-12 |
WO2017170459A1 (ja) | 2017-10-05 |
US20190317938A1 (en) | 2019-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6964384B2 (ja) | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム | |
JP6617117B2 (ja) | 半構造データのためのスケーラブルな分析プラットフォーム | |
KR102627690B1 (ko) | Sql 질의 플랜들을 최적화하기 위한 차원 콘텍스트 전파 기술들 | |
CN107402995B (zh) | 一种分布式newSQL数据库系统及方法 | |
Khasawneh et al. | Sql, newsql, and nosql databases: A comparative survey | |
US10152558B2 (en) | Graph operations | |
JP6159908B1 (ja) | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム | |
Chung et al. | JackHare: a framework for SQL to NoSQL translation using MapReduce | |
US11347742B2 (en) | Querying across a composite join of multiple database tables using a search engine index | |
US20130311454A1 (en) | Data source analytics | |
US9275155B1 (en) | Querying across a composite join of multiple database tables using a search engine index | |
US10860562B1 (en) | Dynamic predicate indexing for data stores | |
JPWO2017170459A6 (ja) | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム | |
US11494337B2 (en) | Data pruning based on metadata | |
CN114461603A (zh) | 多源异构数据融合方法及装置 | |
US9734176B2 (en) | Index merge ordering | |
KR101955376B1 (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Haque et al. | Distributed RDF triple store using hbase and hive | |
Xu et al. | Semantic connection set-based massive RDF data query processing in Spark environment | |
Sahal et al. | Big data multi-query optimisation with Apache Flink | |
Gao et al. | Exploiting sharing join opportunities in big data multiquery optimization with Flink | |
da Rocha et al. | Efficient processing of analytical queries extended with similarity search predicates over images in spark | |
US11822582B2 (en) | Metadata clustering | |
Vasconcelos et al. | On the support of the similarity-aware division operator in a commercial RDBMS | |
Pal et al. | Sql-on-big-data challenges & solutions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200319 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6964384 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |