JP2011232879A - 同義カラム検出装置及び同義カラム検出方法 - Google Patents
同義カラム検出装置及び同義カラム検出方法 Download PDFInfo
- Publication number
- JP2011232879A JP2011232879A JP2010101198A JP2010101198A JP2011232879A JP 2011232879 A JP2011232879 A JP 2011232879A JP 2010101198 A JP2010101198 A JP 2010101198A JP 2010101198 A JP2010101198 A JP 2010101198A JP 2011232879 A JP2011232879 A JP 2011232879A
- Authority
- JP
- Japan
- Prior art keywords
- column
- synonym
- group
- database
- synonymous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】同義カラム検出装置100の同義カラム判定部199は、第1のデータベースの第1カラム群に含まれる各カラムの属性と第2のデータベースの第2カラム群に含まれる各カラムの属性との比較結果に基づき、第1カラム群と第2カラム群との各々から同義カラムの候補を抽出する。第1カラム群から抽出した同義カラムの候補である第1候補と第2カラム群から抽出した同義カラムの候補である第2候補とがそれぞれ2つ以上ある場合、同義カラム判定部199は、第1のデータベースに対するクエリの発行履歴と第2のデータベースに対するクエリの発行履歴との分析結果に基づき、第1候補と第2候補との各々から同義カラムに該当するカラムを判定する。
【選択図】図1
Description
第1のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第1カラム群とし、第2のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第2カラム群とし、前記第1カラム群と前記第2カラム群との各々から、前記第1カラム群と前記第2カラム群との間で共通するデータを格納するカラムを同義カラムとして検出する同義カラム検出装置であって、
前記第1カラム群に含まれる各カラムの属性を示す第1属性情報と前記第2カラム群に含まれる各カラムの属性を示す第2属性情報とを入力装置により入力する属性情報入力部と、
前記第1のデータベースに対するクエリの発行履歴を示す第1履歴情報と前記第2のデータベースに対するクエリの発行履歴を示す第2履歴情報とを入力装置により入力する履歴情報入力部と、
前記属性情報入力部により入力された第1属性情報と第2属性情報とを処理装置により比較して、比較結果に基づき、前記第1カラム群と前記第2カラム群との各々から、前記同義カラムの候補を抽出し、前記第1カラム群から抽出した同義カラムの候補である第1候補と前記第2カラム群から抽出した同義カラムの候補である第2候補とがそれぞれ2つ以上ある場合、前記履歴情報入力部により入力された第1履歴情報と第2履歴情報とを処理装置により分析して、分析結果に基づき、前記第1候補と前記第2候補との各々から、前記同義カラムに該当するカラムを判定する同義カラム判定部とを備えることを特徴とする。
図1は、本実施の形態に係る同義カラム検出装置100の構成例を示すブロック図である。
本実施の形態について、主に実施の形態1との差異を説明する。
本実施の形態について、主に実施の形態1との差異を説明する。
Claims (9)
- 第1のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第1カラム群とし、第2のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第2カラム群とし、前記第1カラム群と前記第2カラム群との各々から、前記第1カラム群と前記第2カラム群との間で共通するデータを格納するカラムを同義カラムとして検出する同義カラム検出装置であって、
前記第1カラム群に含まれる各カラムの属性を示す第1属性情報と前記第2カラム群に含まれる各カラムの属性を示す第2属性情報とを入力装置により入力する属性情報入力部と、
前記第1のデータベースに対するクエリの発行履歴を示す第1履歴情報と前記第2のデータベースに対するクエリの発行履歴を示す第2履歴情報とを入力装置により入力する履歴情報入力部と、
前記属性情報入力部により入力された第1属性情報と第2属性情報とを処理装置により比較して、比較結果に基づき、前記第1カラム群と前記第2カラム群との各々から、前記同義カラムの候補を抽出し、前記第1カラム群から抽出した同義カラムの候補である第1候補と前記第2カラム群から抽出した同義カラムの候補である第2候補とがそれぞれ2つ以上ある場合、前記履歴情報入力部により入力された第1履歴情報と第2履歴情報とを処理装置により分析して、分析結果に基づき、前記第1候補と前記第2候補との各々から、前記同義カラムに該当するカラムを判定する同義カラム判定部とを備えることを特徴とする同義カラム検出装置。 - 前記同義カラム判定部は、前記第1カラム群に含まれるカラムと前記第2カラム群に含まれるカラムとの組み合わせごとに、前記属性情報入力部により入力された第1属性情報で示された属性と前記属性情報入力部により入力された第2属性情報で示された属性との類似度を処理装置により算出し、算出した類似度が所定の閾値以上となる組み合わせの各カラムを前記同義カラムの候補とすることを特徴とする請求項1に記載の同義カラム検出装置。
- 第1のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第1カラム群とし、第2のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第2カラム群とし、前記第1カラム群と前記第2カラム群との各々から、前記第1カラム群と前記第2カラム群との間で共通するデータを格納するカラムを同義カラムとして検出する同義カラム検出装置であって、
前記第1カラム群に含まれる各カラムに格納された第1データ群と前記第2カラム群に含まれる各カラムに格納された第2データ群とを入力装置により入力するデータ入力部と、
前記第1のデータベースに対するクエリの発行履歴を示す第1履歴情報と前記第2のデータベースに対するクエリの発行履歴を示す第2履歴情報とを入力装置により入力する履歴情報入力部と、
前記データ入力部により入力された第1データ群と第2データ群とを処理装置により比較して、比較結果に基づき、前記第1カラム群と前記第2カラム群との各々から、前記同義カラムの候補を抽出し、前記第1カラム群から抽出した同義カラムの候補である第1候補と前記第2カラム群から抽出した同義カラムの候補である第2候補とがそれぞれ2つ以上ある場合、前記履歴情報入力部により入力された第1履歴情報と第2履歴情報とを処理装置により分析して、分析結果に基づき、前記第1候補と前記第2候補との各々から、前記同義カラムに該当するカラムを判定する同義カラム判定部とを備えることを特徴とする同義カラム検出装置。 - 前記同義カラム判定部は、前記第1カラム群に含まれるカラムと前記第2カラム群に含まれるカラムとの組み合わせごとに、前記データ入力部により入力された第1データ群と第2データ群との類似度を処理装置により算出し、算出した類似度が所定の閾値以上となる組み合わせの各カラムを前記同義カラムの候補とすることを特徴とする請求項3に記載の同義カラム検出装置。
- 前記同義カラム判定部は、前記履歴情報入力部により入力された第1履歴情報で示されたクエリの発行履歴に、前記第1候補に含まれる各カラムが出現する順序のパターンと、前記履歴情報入力部により入力された第2履歴情報で示されたクエリの発行履歴に、前記第2候補に含まれる各カラムが出現する順序のパターンとを処理装置により分析して、前記分析結果を得ることを特徴とする請求項1から4までのいずれかに記載の同義カラム検出装置。
- 前記同義カラム判定部は、前記第1候補と前記第2候補とが2つずつある場合、前記履歴情報入力部により入力された第1履歴情報で示されたクエリの発行履歴に、前記第1候補の一方のカラムが先に他方のカラムが後に出現するパターンと一方のカラムが後に他方のカラムが先に出現するパターンとのうち、より多いパターンを第1パターンとし、前記履歴情報入力部により入力された第2履歴情報で示されたクエリの発行履歴に、前記第2候補の一方のカラムが先に他方のカラムが後に出現するパターンと一方のカラムが後に他方のカラムが先に出現するパターンとのうち、より多いパターンを第2パターンとし、前記第1パターンで先に出現するカラムと前記第2パターンで先に出現するカラムとが前記同義カラムであると判定するとともに、前記第1パターンで後に出現するカラムと前記第2パターンで後に出現するカラムとが前記同義カラムであると判定することを特徴とする請求項5に記載の同義カラム検出装置。
- 前記同義カラム判定部は、さらに、前記履歴情報入力部により入力された第1履歴情報と第2履歴情報とを比較し、比較結果に基づき、前記第1カラム群と前記第2カラム群との各々から、前記同義カラムの候補を抽出することを特徴とする請求項1から6までのいずれかに記載の同義カラム検出装置。
- 第1のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第1カラム群とし、第2のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第2カラム群とし、前記第1カラム群と前記第2カラム群との各々から、前記第1カラム群と前記第2カラム群との間で共通するデータを格納するカラムを同義カラムとして検出する同義カラム検出方法であって、
入力装置が、前記第1カラム群に含まれる各カラムの属性を示す第1属性情報と前記第2カラム群に含まれる各カラムの属性を示す第2属性情報とを入力し、
入力装置が、前記第1のデータベースに対するクエリの発行履歴を示す第1履歴情報と前記第2のデータベースに対するクエリの発行履歴を示す第2履歴情報とを入力し、
処理装置が、前記第1属性情報と前記第2属性情報とを比較して、比較結果に基づき、前記第1カラム群と前記第2カラム群との各々から、前記同義カラムの候補を少なくとも1つずつ抽出し、
処理装置が、前記第1カラム群から抽出した同義カラムの候補である第1候補と前記第2カラム群から抽出した同義カラムの候補である第2候補とがそれぞれ2つ以上ある場合、前記第1履歴情報と前記第2履歴情報とを分析して、分析結果に基づき、前記第1候補と前記第2候補との各々から、前記同義カラムに該当するカラムを判定することを特徴とする同義カラム検出方法。 - 第1のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第1カラム群とし、第2のデータベースを構成するテーブルにてそれぞれデータを格納する複数のカラムを第2カラム群とし、前記第1カラム群と前記第2カラム群との各々から、前記第1カラム群と前記第2カラム群との間で共通するデータを格納するカラムを同義カラムとして検出する同義カラム検出方法であって、
入力装置が、前記第1カラム群に含まれる各カラムに格納された第1データ群と前記第2カラム群に含まれる各カラムに格納された第2データ群とを入力し、
入力装置が、前記第1のデータベースに対するクエリの発行履歴を示す第1履歴情報と前記第2のデータベースに対するクエリの発行履歴を示す第2履歴情報とを入力し、
処理装置が、前記第1データ群と前記第2データ群とを比較して、比較結果に基づき、前記第1カラム群と前記第2カラム群との各々から、前記同義カラムの候補を少なくとも1つずつ抽出し、
処理装置が、前記第1カラム群から抽出した同義カラムの候補である第1候補と前記第2カラム群から抽出した同義カラムの候補である第2候補とがそれぞれ2つ以上ある場合、前記第1履歴情報と前記第2履歴情報とを分析して、分析結果に基づき、前記第1候補と前記第2候補との各々から、前記同義カラムに該当するカラムを判定することを特徴とする同義カラム検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010101198A JP5506527B2 (ja) | 2010-04-26 | 2010-04-26 | 同義カラム検出装置及び同義カラム検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010101198A JP5506527B2 (ja) | 2010-04-26 | 2010-04-26 | 同義カラム検出装置及び同義カラム検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011232879A true JP2011232879A (ja) | 2011-11-17 |
JP5506527B2 JP5506527B2 (ja) | 2014-05-28 |
Family
ID=45322150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010101198A Expired - Fee Related JP5506527B2 (ja) | 2010-04-26 | 2010-04-26 | 同義カラム検出装置及び同義カラム検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5506527B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013128611A1 (ja) * | 2012-03-01 | 2013-09-06 | 株式会社日立製作所 | データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体 |
WO2018025707A1 (ja) * | 2016-08-05 | 2018-02-08 | 日本電気株式会社 | テーブル意味推定システム、方法およびプログラム |
KR102102276B1 (ko) * | 2018-12-28 | 2020-04-22 | 동국대학교 산학협력단 | 딥러닝 기반의 표 유사도 측정 방법 |
US10936634B2 (en) | 2016-12-26 | 2021-03-02 | Hitachi, Ltd. | Synonymous column candidate selecting apparatus, synonymous column candidate selecting method, and synonymous column candidate selecting program |
US11948098B2 (en) | 2018-03-08 | 2024-04-02 | Nec Corporation | Meaning inference system, method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271656A (ja) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2005346239A (ja) * | 2004-06-01 | 2005-12-15 | Ntt Data Corp | 類似症例検索システム及びプログラム |
JP2006338133A (ja) * | 2005-05-31 | 2006-12-14 | Ntt Data Corp | 情報抽出装置、情報抽出方法及びプログラム |
JP2007304796A (ja) * | 2006-05-10 | 2007-11-22 | Mitsubishi Electric Corp | データベース解析システム及びデータベース解析方法及びプログラム |
-
2010
- 2010-04-26 JP JP2010101198A patent/JP5506527B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271656A (ja) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2005346239A (ja) * | 2004-06-01 | 2005-12-15 | Ntt Data Corp | 類似症例検索システム及びプログラム |
JP2006338133A (ja) * | 2005-05-31 | 2006-12-14 | Ntt Data Corp | 情報抽出装置、情報抽出方法及びプログラム |
JP2007304796A (ja) * | 2006-05-10 | 2007-11-22 | Mitsubishi Electric Corp | データベース解析システム及びデータベース解析方法及びプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013128611A1 (ja) * | 2012-03-01 | 2013-09-06 | 株式会社日立製作所 | データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体 |
WO2018025707A1 (ja) * | 2016-08-05 | 2018-02-08 | 日本電気株式会社 | テーブル意味推定システム、方法およびプログラム |
JPWO2018025707A1 (ja) * | 2016-08-05 | 2019-05-30 | 日本電気株式会社 | テーブル意味推定システム、方法およびプログラム |
US10936634B2 (en) | 2016-12-26 | 2021-03-02 | Hitachi, Ltd. | Synonymous column candidate selecting apparatus, synonymous column candidate selecting method, and synonymous column candidate selecting program |
US11948098B2 (en) | 2018-03-08 | 2024-04-02 | Nec Corporation | Meaning inference system, method, and program |
KR102102276B1 (ko) * | 2018-12-28 | 2020-04-22 | 동국대학교 산학협력단 | 딥러닝 기반의 표 유사도 측정 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP5506527B2 (ja) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ehrlinger et al. | A survey of data quality measurement and monitoring tools | |
Torvik et al. | Author name disambiguation in MEDLINE | |
US7562088B2 (en) | Structure extraction from unstructured documents | |
US8886617B2 (en) | Query-based searching using a virtual table | |
Böhm et al. | Profiling linked open data with ProLOD | |
US10095766B2 (en) | Automated refinement and validation of data warehouse star schemas | |
US20080162455A1 (en) | Determination of document similarity | |
US9613125B2 (en) | Data store organizing data using semantic classification | |
US9239872B2 (en) | Data store organizing data using semantic classification | |
CN103080924A (zh) | 用于处理数据集的方法和布置、数据处理程序和计算机程序产品 | |
US9477729B2 (en) | Domain based keyword search | |
JP5506527B2 (ja) | 同義カラム検出装置及び同義カラム検出方法 | |
US9081847B2 (en) | Data store organizing data using semantic classification | |
US20210042589A1 (en) | System and method for content-based data visualization using a universal knowledge graph | |
US20140156591A1 (en) | Knowledge catalysts | |
US20160224741A1 (en) | Data input method | |
JP4989761B2 (ja) | イベント履歴記憶装置、イベント履歴追跡装置、イベント履歴記憶方法及びイベント履歴記憶プログラム | |
Gollapalli et al. | Automated discovery of multi-faceted ontologies for accurate query answering and future semantic reasoning | |
US10360239B2 (en) | Automated definition of data warehouse star schemas | |
EP4174795A1 (en) | Multiple input machine learning framework for anomaly detection | |
Azeroual et al. | Solving problems of research information heterogeneity during integration–using the European CERIF and German RCD standards as examples | |
US20180314766A1 (en) | Data Processing System, Data Processing Method, and Data Structure | |
JP5020274B2 (ja) | 意味ドリフトの発生評価方法及び装置 | |
Ahmed et al. | Dynamic approach for data scrubbing process | |
Wang et al. | Research on Web Query Translation based on Ontology. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5506527 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |