JP7444245B2 - データ検索システム、装置、方法、および、プログラム - Google Patents
データ検索システム、装置、方法、および、プログラム Download PDFInfo
- Publication number
- JP7444245B2 JP7444245B2 JP2022517451A JP2022517451A JP7444245B2 JP 7444245 B2 JP7444245 B2 JP 7444245B2 JP 2022517451 A JP2022517451 A JP 2022517451A JP 2022517451 A JP2022517451 A JP 2022517451A JP 7444245 B2 JP7444245 B2 JP 7444245B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- cell
- column
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000012545 processing Methods 0.000 claims description 77
- 238000001914 filtration Methods 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 24
- 238000013138 pruning Methods 0.000 claims description 20
- 238000013524 data verification Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 13
- 238000012800 visualization Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 20
- 238000013079 data visualisation Methods 0.000 description 11
- 238000012795 verification Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 241000255789 Bombyx mori Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 239000009322 erkang Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の第一の実施形態における、データインデックス部を説明する。第一の実施形態のデータインデックス部は、テーブルデータをインデックス化して管理する。すなわち、データインデックス部では、複数のテーブルがインデックス化されて管理される。データインデックス部は、1つのテーブルの挿入、削除、更新をサポートする。削除は同一部でコピーと同様の(逆の)処理フローで対応し、更新操作は挿入と削除の組み合わせであるため、以下では、主にテーブルの挿入の詳細を説明する。
以下、各部の内容を具体的に説明する。
次に、本発明の第二の実施形態について説明する。本発明の第二の実施形態として、データ検索システムについて説明する。データ検索システムは、結合可能なテーブルを検索するシステムである。
次に、本発明の第三の実施形態について説明する。本発明の第三の実施形態として、データ可視化システムを説明する。データ可視化システムは、結合グラフを可視化する(例えば、表示する)システムである。結合グラフは、複数のテーブル間の結合可能な関係を表わすためのグラフ構造である。結合グラフにおいて、ノードはテーブルを表し、2つのテーブル間のエッジは、それらが結合可能であることを表す。結合グラフは、複数のテーブルのつながりを表わすもので、多くのデータ分析手法に利用されている。
前記ソーステーブルのデータを管理するデータインデックス部と、
クエリテーブルに対して結合可能なソーステーブルを検索するデータ検索部とを備え、
前記データインデックス部は、前記ソーステーブルを集合のコレクションに分割し、分割された集合ごとに、セルの類似度を計算する類似度関数を用いて、前記集合に含まれる類似セルのグループを生成するグループインデックス部を含み、
前記データ検索部は、分割されたクエリテーブルの集合に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える集合を含むソーステーブルを検索するデータフィルタリング部を含む
ことを特徴とするデータ検索システム。
前記データフィルタリング部は、前記支配関係によって支配されている集合がより多く存在する集合を検索候補として優先的に選択する
付記1記載のデータ検索システム。
前記データフィルタリング部は、抽出された集合を前記検索候補から除外する
付記2記載のデータ検索システム。
付記1から付記3のうちのいずれか1つに記載のデータ検索システム。
付記1から付記4のうちのいずれか1つに記載のデータ検索システム。
付記1から付記5のうちのいずれか1つに記載のデータ検索システム。
セルの類似度を計算する類似度関数を用いて、各ソーステーブルの列ごとに生成された類似セルのグループを入力する入力部と、
分割されたクエリテーブルの集合に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える集合を含むソーステーブルを検索するデータフィルタリング部とを含む
ことを特徴とするデータ検索装置。
前記ソーステーブルを集合のコレクションに分割し、分割された集合ごとに、セルの類似度を計算する類似度関数を用いて、前記集合に含まれる類似セルのグループを生成し、
分割されたクエリテーブルの集合に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える集合を含むソーステーブルを検索する
ことを特徴とするデータ検索方法。
前記支配関係によって支配されている集合がより多く存在する集合を検索候補として優先的に選択する
付記8に記載のデータ検索方法。
セルの類似度を計算する類似度関数を用いて、各ソーステーブルの列ごとに生成された類似セルのグループを入力し、
分割されたクエリテーブルの集合に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える集合を含むソーステーブルを検索する
ことを特徴とするデータ検索方法。
コンピュータに、
セルの類似度を計算する類似度関数を用いて、各ソーステーブルの列ごとに生成された類似セルのグループを入力する入力処理、および、
分割されたクエリテーブルの集合に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える集合を含むソーステーブルを検索するデータフィルタリング処理
を実行させるためのデータ検索プログラム。
200 データ可視化システム
600 データインデックス部
601 データ入力部
602 データ前処理部
603 グループインデックス部
604 支配関係インデックス部
605 グループ構造記憶部
606 支配関係構造記憶部
607 ソーステーブル記憶部
700 データ検索部
701 データフィルタリング部
7010 結合処理部
7011 プルーニング処理部
7012 候補選択部
7013 内部結果記憶部
702 データ検証部
710 問合せ入力部
720 問合せ前処理部
730 検索結果出力部
800 グラフ生成部
801 結合グラフ処理部
802 結合グラフ表示部
810 パラメータ入力部
Claims (10)
- クエリテーブルに対して結合可能なソーステーブルを検索するデータ検索システムであって、
前記ソーステーブルのデータを管理するデータインデックス部と、
クエリテーブルに対して結合可能なソーステーブルを検索するデータ検索部とを備え、
前記データインデックス部は、前記ソーステーブルを列のコレクションに分割し、分割された列ごとに、セルの類似度を計算する類似度関数を用いて、前記列に含まれる類似セルのグループを生成するグループインデックス部を含み、
前記データ検索部は、クエリテーブルに対して結合可能なソーステーブルとして、分割されたクエリテーブルの列に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える列を含むソーステーブルを検索するデータフィルタリング部を含む
ことを特徴とするデータ検索システム。 - 前記データインデックス部は、前記列のグループのそれぞれに含まれるセル数の大小関係に基づいて定義される関係であって、セル数が多いグループを含む列が、セル数が少ない対応するグループを含む列を支配するという関係を示す支配関係を抽出する支配関係抽出部をさらに含み、
前記データフィルタリング部は、前記支配関係によって支配されている列をより多く含む列を検索候補のソーステーブルに含まれる列として優先的に選択する
請求項1記載のデータ検索システム。 - 前記データ検索部は、前記支配関係によって支配されている列を抽出するプルーニング処理部をさらに含み、
前記データフィルタリング部は、抽出された列が結合可能でないと判定された場合、抽出された列を前記検索候補のソーステーブルに含まれる列から除外する
請求項2記載のデータ検索システム。 - 複数のテーブル間の結合可能な関係を表す結合グラフを可視化する可視化部をさらに備える
請求項1から請求項3のうちのいずれか1項に記載のデータ検索システム。 - 前記データ検索部は、前記第1セルと前記第2セルとの組の数を用いて前記ソーステーブルを検証するデータ検証部をさらに含む
請求項1から請求項4のうちのいずれか1項に記載のデータ検索システム。 - 前記データインデックス部は、文字列データを含む列を実数データに変換するデータ前処理部をさらに含む
請求項1から請求項5のうちのいずれか1項に記載のデータ検索システム。 - クエリテーブルに対して結合可能なソーステーブルを検索するデータ検索装置であって、
セルの類似度を計算する類似度関数を用いて各ソーステーブルの列ごとに生成された類似セルのグループを入力する入力部と、
クエリテーブルに対して結合可能なソーステーブルとして、分割されたクエリテーブルの列に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える列を含むソーステーブルを検索するデータフィルタリング部とを含む
ことを特徴とするデータ検索装置。 - クエリテーブルに対して結合可能なソーステーブルを検索するデータ検索方法であって、
コンピュータが、前記ソーステーブルを列のコレクションに分割し、分割された列ごとに、セルの類似度を計算する類似度関数を用いて、前記列に含まれる類似セルのグループを生成し、
前記コンピュータが、クエリテーブルに対して結合可能なソーステーブルとして、分割されたクエリテーブルの列に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える列を含むソーステーブルを検索する
ことを特徴とするデータ検索方法。 - クエリテーブルに対して結合可能なソーステーブルを検索するデータ検索方法であって、
コンピュータが、セルの類似度を計算する類似度関数を用いて各ソーステーブルの列ごとに生成された類似セルのグループを入力し、
前記コンピュータが、クエリテーブルに対して結合可能なソーステーブルとして、分割されたクエリテーブルの列に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える列を含むソーステーブルを検索する
ことを特徴とするデータ検索方法。 - クエリテーブルに対して結合可能なソーステーブルをコンピュータに検索させるためのデータ検索プログラムであって、
前記コンピュータに、
セルの類似度を計算する類似度関数を用いて各ソーステーブルの列ごとに生成された類似セルのグループを入力する入力処理、および、
クエリテーブルに対して結合可能なソーステーブルとして、分割されたクエリテーブルの列に含まれる第1セルと、当該第1セルに類似するセルを含む前記グループに含まれる第2セルとの組の数が所定の閾値を超える列を含むソーステーブルを検索するデータフィルタリング処理
を実行させるためのデータ検索プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/039653 WO2021070247A1 (en) | 2019-10-08 | 2019-10-08 | Data searching system, device, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022551230A JP2022551230A (ja) | 2022-12-08 |
JP7444245B2 true JP7444245B2 (ja) | 2024-03-06 |
Family
ID=75437357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022517451A Active JP7444245B2 (ja) | 2019-10-08 | 2019-10-08 | データ検索システム、装置、方法、および、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220342879A1 (ja) |
JP (1) | JP7444245B2 (ja) |
WO (1) | WO2021070247A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080183693A1 (en) | 2007-01-30 | 2008-07-31 | Microsoft Corporation | Efficient exact set similarity joins |
WO2016021726A1 (ja) | 2014-08-08 | 2016-02-11 | 株式会社博報堂Dyホールディングス | 情報処理システム |
JP2016038780A (ja) | 2014-08-08 | 2016-03-22 | 株式会社博報堂Dyホールディングス | 情報処理システム、及び、プログラム。 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004002044A2 (en) * | 2002-02-01 | 2003-12-31 | John Fairweather | A system for exchanging binary data |
US9507824B2 (en) * | 2014-08-22 | 2016-11-29 | Attivio Inc. | Automated creation of join graphs for unrelated data sets among relational databases |
US9830383B2 (en) * | 2015-12-17 | 2017-11-28 | International Business Machines Corporation | Decision table decomposition using semantic relations |
US11461671B2 (en) * | 2019-06-03 | 2022-10-04 | Bank Of America Corporation | Data quality tool |
-
2019
- 2019-10-08 US US17/764,283 patent/US20220342879A1/en not_active Abandoned
- 2019-10-08 WO PCT/JP2019/039653 patent/WO2021070247A1/en active Application Filing
- 2019-10-08 JP JP2022517451A patent/JP7444245B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080183693A1 (en) | 2007-01-30 | 2008-07-31 | Microsoft Corporation | Efficient exact set similarity joins |
WO2016021726A1 (ja) | 2014-08-08 | 2016-02-11 | 株式会社博報堂Dyホールディングス | 情報処理システム |
JP2016038780A (ja) | 2014-08-08 | 2016-03-22 | 株式会社博報堂Dyホールディングス | 情報処理システム、及び、プログラム。 |
CN106687956A (zh) | 2014-08-08 | 2017-05-17 | 株式会社博报堂Dy控股集团 | 信息处理系统 |
US20170235803A1 (en) | 2014-08-08 | 2017-08-17 | Hakuhodo Dy Holdings Inc. | Information-processing system |
Also Published As
Publication number | Publication date |
---|---|
WO2021070247A1 (en) | 2021-04-15 |
JP2022551230A (ja) | 2022-12-08 |
US20220342879A1 (en) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038183B (zh) | 结构化实体收录方法、装置、服务器和存储介质 | |
US10521427B2 (en) | Managing data queries | |
Zhang et al. | Bed-tree: an all-purpose index structure for string similarity search based on edit distance | |
WO2020143184A1 (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
US9665620B2 (en) | Managing data queries | |
CN106503223B (zh) | 一种结合位置和关键词信息的在线房源搜索方法及装置 | |
US20230139783A1 (en) | Schema-adaptable data enrichment and retrieval | |
CN110321446B (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
US20170116268A1 (en) | Extending relational algebra for data management | |
WO2020211466A1 (zh) | 一种非冗余基因集聚类方法、系统及电子设备 | |
CN109408578A (zh) | 一种针对异构环境监测数据融合方法 | |
JP2019040598A5 (ja) | ||
JP2017045291A (ja) | 類似画像検索システム | |
CN113220820B (zh) | 基于图的高效sparql查询应答方法、装置和设备 | |
WO2017065891A1 (en) | Automated join detection | |
US20160179895A1 (en) | Database joins using uncertain criteria | |
KR20220069229A (ko) | 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법 | |
JP7444245B2 (ja) | データ検索システム、装置、方法、および、プログラム | |
CN110389953B (zh) | 基于压缩图的数据存储方法、存储介质、存储装置和服务器 | |
US9959295B1 (en) | S-expression based computation of lineage and change impact analysis | |
Bhagat et al. | Sparx-Data Preprocessing Module | |
CN113641705A (zh) | 一种基于计算引擎的营销处置规则引擎方法 | |
JP6666312B2 (ja) | 多次元データ管理システム及び多次元データ管理方法 | |
Kaur et al. | Sentimental analysis using various analytical tools from hadoop eco system | |
Zhukovaа et al. | About the possibility of determining the prefix and suffix of a word by subwords of fixed length |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220317 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240205 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7444245 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |