JP6772606B2 - データ処理プログラム、データ処理方法、及びデータ処理装置 - Google Patents
データ処理プログラム、データ処理方法、及びデータ処理装置 Download PDFInfo
- Publication number
- JP6772606B2 JP6772606B2 JP2016138309A JP2016138309A JP6772606B2 JP 6772606 B2 JP6772606 B2 JP 6772606B2 JP 2016138309 A JP2016138309 A JP 2016138309A JP 2016138309 A JP2016138309 A JP 2016138309A JP 6772606 B2 JP6772606 B2 JP 6772606B2
- Authority
- JP
- Japan
- Prior art keywords
- master
- candidate
- tables
- degree
- data items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 73
- 238000007476 Maximum Likelihood Methods 0.000 claims description 44
- 238000010168 coupling process Methods 0.000 description 35
- 230000008878 coupling Effects 0.000 description 34
- 238000005859 coupling reaction Methods 0.000 description 34
- 230000004083 survival effect Effects 0.000 description 26
- 238000000605 extraction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/273—Asynchronous replication or reconciliation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
トランザクション7と結合可能な候補マスタを列挙して結合率を計算する。
それぞれの候補マスタと、DBMS上のすべてのマスタとの間で、結合可能かのチェックを行い、結合可能なら結合率を計算する。
上記<手順2>で得られたマスタに対して、<手順2>と同じ処理を結合率が閾値以下となるまで再帰的に繰り返す。
それぞれの候補マスタに対する結合連鎖の影響範囲の広さを、結合連鎖における各結合の結合率の積(又は平均等)として算出して定量化する。
67%×75%×25%×25% = 3.1%
である。
33%×50%×50%×50% = 4.1%
である。
Msr = {(m、sr)|m∈M、sr∈R}
ここで、Rは実数集合である。
1+1 = 2
である。
1+1+1 = 3
である。
Mse = {(m、se、lm)|m∈M、se∈N、lmはmの生存リスト}
ここで、Nは自然数集合である。
67%×75%×25%×25% = 3.1%
よって、3.1%である。
33%×50%×50%×50% = 4.1%
よって、4.1%である。
70%×75%×25%×25% = 3.3%
よって、3.3%である。
20%×50%×50%×50% = 2.5%
よって、2.5%である。
(付記1)
第1テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の候補テーブルを複数の第2テーブルから選択し、複数の前記候補テーブルと前記第1テーブルのデータ項目の第1一致度をそれぞれ算出し、
複数の前記候補テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第3テーブルを複数の前記第2テーブルから選択し、複数の前記候補テーブルと複数の前記第3テーブルのデータ項目の第2一致度をそれぞれ算出し、
前記第1一致度と前記第2一致度に基づいて、複数の前記候補テーブルの信頼度を算出する
処理をコンピュータに実行させるデータ処理プログラム。
(付記2)
前記コンピュータは、
前記第1テーブルのデータ項目の総数に対する、前記候補テーブルのデータ項目が一致した一致数の割合を算出することによって、前記第1一致度を取得する
ことを特徴とする付記1記載のデータ処理プログラム。
(付記3)
前記コンピュータは、
各候補テーブル毎に、該候補テーブルのデータ項目の総数に対する、前記第3テーブルのデータ項目が一致した一致数の割合を算出することによって、前記第2一致度を取得する
ことを特徴とする付記2記載のデータ処理プログラム。
(付記4)
前記コンピュータは、
前記候補テーブル毎に、前記第1テーブルの前記データ項目の前記第1一致度と、前記第3テーブルのとの該データ項目の第2一致度とを合算して、各候補テーブルの前記信頼度を取得する
ことを特徴とする付記1乃至3のいずれか一項記載のデータ処理プログラム。
(付記5)
前記コンピュータは、
複数の前記候補テーブルのうち、最も高い信頼度の候補テーブルを、前記第1テーブルに最も結合され得る最尤テーブルであると判定する
ことを特徴とする付記1乃至4のいずれか一項記載のデータ処理プログラム。
(付記6)
前記コンピュータは、
複数の前記第1テーブルに対して、該第1テーブル毎に、前記信頼度に基づいて、複数の前記候補テーブルの1つを該第1テーブルに最も結合され得るテーブルであると判定し、
複数の前記第1テーブルの複数の前記最も結合され得るテーブルのうち、最も高い信頼度のテーブルを、複数の該第1テーブルに結合され得る最尤テーブルであると判定する
ことを特徴とする付記5記載のデータ処理プログラム。
(付記7)
第1テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の候補テーブルを複数の第2テーブルから選択し、
複数の前記候補テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第3テーブルを複数の前記第2テーブルから選択し、複数の前記候補テーブルと複数の前記第3テーブルのデータ項目の第1一致度をそれぞれ算出し、
複数の前記第3テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第4テーブルを複数の前記第2テーブルから選択し、複数の前記第3テーブルと複数の前記第4テーブルのデータ項目の第2一致度をそれぞれ算出し、
前記第1一致度と前記第2一致度に基づいて、複数の前記候補テーブルの信頼度を算出する
処理をコンピュータに実行させるデータ処理プログラム。
(付記8)
第1テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の候補テーブルを複数の第2テーブルから選択し、複数の前記候補テーブルと前記第1テーブルのデータ項目の第1一致度をそれぞれ算出し、
複数の前記候補テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第3テーブルを複数の前記第2テーブルから選択し、複数の前記候補テーブルと複数の前記第3テーブルのデータ項目の第2一致度をそれぞれ算出し、
前記第1一致度と前記第2一致度に基づいて、複数の前記候補テーブルの信頼度を算出する
処理をコンピュータに実行させるデータ処理方法。
(付記9)
第1テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の候補テーブルを複数の第2テーブルから選択し、複数の前記候補テーブルと前記第1テーブルのデータ項目の第1一致度をそれぞれ算出する第1一致度取得部と、
複数の前記候補テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第3テーブルを複数の前記第2テーブルから選択し、複数の前記候補テーブルと複数の前記第3テーブルのデータ項目の第2一致度をそれぞれ算出する第2一致度取得部と、
前記第1一致度と前記第2一致度に基づいて、複数の前記候補テーブルの信頼度を算出する信頼度取得部と
を有するデータ処理装置。
8 候補マスタ
8p 最尤マスタ
11 CPU
12 主記憶装置
13 補助記憶装置
14 入力装置
15 表示装置
17 通信I/F
18 ドライブ装置
19 記憶媒体
40a、40b 結合マスタ選択部
41a、41b 結合部
42a、42b 候補マスタ抽出部
43a、43b マスタ探索部
44a、44b 信頼度取得部
45a、45b 最尤マスタ選択部
50 マスタ集合
100 データ処理装置
130 記憶部
Claims (8)
- 第1テーブルと、前記第1テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第2テーブルそれぞれとのデータ項目の一致度である第1一致度をそれぞれ算出し、
前記第1一致度に基づいて前記複数の第2テーブルの中から複数の候補テーブルを決定し、
複数の前記候補テーブルそれぞれについて、候補テーブルのデータ項目と少なくとも一部のデータ項目が一致する、前記第2テーブルに含まれる複数の第3テーブルそれぞれとのデータ項目の一致度である第2一致度をそれぞれ算出し、
前記第1一致度と前記第2一致度に基づいて、複数の前記候補テーブルそれぞれの信頼度を算出する
処理をコンピュータに実行させるデータ処理プログラム。 - 前記コンピュータは、
前記第1テーブルのデータ項目の総数に対する、前記候補テーブルのデータ項目が一致した一致数の割合を算出することによって、前記第1一致度を取得する
ことを特徴とする請求項1記載のデータ処理プログラム。 - 前記コンピュータは、
各候補テーブル毎に、該候補テーブルのデータ項目の総数に対する、前記第3テーブルのデータ項目が一致した一致数の割合を算出することによって、前記第2一致度を取得する
ことを特徴とする請求項2記載のデータ処理プログラム。 - 前記コンピュータは、
前記候補テーブル毎に、前記第1テーブルの前記データ項目の前記第1一致度と、前記第3テーブルのとの該データ項目の第2一致度とを総合して、各候補テーブルの前記信頼度を取得する
ことを特徴とする請求項1乃至3のいずれか一項記載のデータ処理プログラム。 - 前記コンピュータは、
複数の前記候補テーブルのうち、最も高い信頼度の候補テーブルを、前記第1テーブルに最も結合され得る最尤テーブルであると判定する
ことを特徴とする請求項1乃至4のいずれか一項記載のデータ処理プログラム。 - 前記コンピュータは、
複数の前記第1テーブルに対して、該第1テーブル毎に、前記信頼度に基づいて、複数の前記候補テーブルの1つを該第1テーブルに最も結合され得るテーブルであると判定し、
複数の前記第1テーブルの複数の前記最も結合され得るテーブルのうち、最も高い信頼度のテーブルを、複数の該第1テーブルに結合され得る最尤テーブルであると判定する
ことを特徴とする請求項5記載のデータ処理プログラム。 - 第1テーブルと、前記第1テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第2テーブルそれぞれとのデータ項目の一致度である第1一致度をそれぞれ算出し、
前記第1一致度に基づいて前記複数の第2テーブルの中から複数の候補テーブルを決定し、
複数の前記候補テーブルそれぞれについて、候補テーブルのデータ項目と少なくとも一部のデータ項目が一致する、前記第2テーブルに含まれる複数の第3テーブルそれぞれとのデータ項目の一致度である第2一致度をそれぞれ算出し、
前記第1一致度と前記第2一致度に基づいて、複数の前記候補テーブルそれぞれの信頼度を算出する
処理をコンピュータに実行させるデータ処理方法。 - 第1テーブルと、前記第1テーブルのデータ項目と少なくとも一部のデータ項目が一致する複数の第2テーブルそれぞれとのデータ項目の一致度である第1一致度をそれぞれ算出し、前記第1一致度に基づいて前記複数の第2テーブルの中から複数の候補テーブルを決定する第1一致度取得部と、
複数の前記候補テーブルそれぞれについて、候補テーブルのデータ項目と少なくとも一部のデータ項目が一致する、前記第2テーブルに含まれる複数の第3テーブルそれぞれとのデータ項目の一致度である第2一致度をそれぞれ算出する第2一致度取得部と、
前記第1一致度と前記第2一致度に基づいて、複数の前記候補テーブルそれぞれの信頼度を算出する信頼度取得部と
を有するデータ処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016138309A JP6772606B2 (ja) | 2016-07-13 | 2016-07-13 | データ処理プログラム、データ処理方法、及びデータ処理装置 |
US15/598,712 US20180018362A1 (en) | 2016-07-13 | 2017-05-18 | Data processing method and data processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016138309A JP6772606B2 (ja) | 2016-07-13 | 2016-07-13 | データ処理プログラム、データ処理方法、及びデータ処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018010450A JP2018010450A (ja) | 2018-01-18 |
JP6772606B2 true JP6772606B2 (ja) | 2020-10-21 |
Family
ID=60941111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016138309A Expired - Fee Related JP6772606B2 (ja) | 2016-07-13 | 2016-07-13 | データ処理プログラム、データ処理方法、及びデータ処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180018362A1 (ja) |
JP (1) | JP6772606B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11016978B2 (en) * | 2019-09-18 | 2021-05-25 | Bank Of America Corporation | Joiner for distributed databases |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US7299226B2 (en) * | 2003-06-19 | 2007-11-20 | Microsoft Corporation | Cardinality estimation of joins |
JP4899544B2 (ja) * | 2006-03-13 | 2012-03-21 | 富士通株式会社 | プログラム解析方法、プログラム及びプログラム解析装置 |
US8266168B2 (en) * | 2008-04-24 | 2012-09-11 | Lexisnexis Risk & Information Analytics Group Inc. | Database systems and methods for linking records and entity representations with sufficiently high confidence |
JP5840110B2 (ja) * | 2012-11-05 | 2016-01-06 | 三菱電機株式会社 | 同一項目検出装置及びプログラム |
JP5984629B2 (ja) * | 2012-11-14 | 2016-09-06 | 三菱電機株式会社 | マスタファイル差分自動出力装置 |
JP6123372B2 (ja) * | 2013-03-12 | 2017-05-10 | 株式会社リコー | 情報処理システム、名寄せ判定方法及びプログラム |
US9767127B2 (en) * | 2013-05-02 | 2017-09-19 | Outseeker Corp. | Method for record linkage from multiple sources |
US9495347B2 (en) * | 2013-07-16 | 2016-11-15 | Recommind, Inc. | Systems and methods for extracting table information from documents |
JP6352761B2 (ja) * | 2014-10-08 | 2018-07-04 | 株式会社日立製作所 | データ処理システム、データ処理方法、及びプログラム |
US10198471B2 (en) * | 2015-05-31 | 2019-02-05 | Microsoft Technology Licensing, Llc | Joining semantically-related data using big table corpora |
US20170344890A1 (en) * | 2016-05-26 | 2017-11-30 | Arun Kumar Parayatham | Distributed algorithm to find reliable, significant and relevant patterns in large data sets |
-
2016
- 2016-07-13 JP JP2016138309A patent/JP6772606B2/ja not_active Expired - Fee Related
-
2017
- 2017-05-18 US US15/598,712 patent/US20180018362A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2018010450A (ja) | 2018-01-18 |
US20180018362A1 (en) | 2018-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101149994B1 (ko) | 외부 메타데이터 프로세싱 방법 및 시스템 | |
JP5313337B2 (ja) | モバイル・コンピューティング装置に対する検索結果の提供 | |
JP4943240B2 (ja) | ビジネスプロセス作成方法、ビジネスプロセス作成装置、及びビジネスプロセス作成プログラム | |
JP4453983B2 (ja) | データベースへのクエリ送信方法およびクエリ送信システム | |
CN107784030B (zh) | 一种处理连接查询的方法及装置 | |
JP4908073B2 (ja) | サービスベースソフトウェア設計支援方法及びそのための装置 | |
WO2016191995A1 (zh) | 一种分布式数据库中关联表分区的方法和设备 | |
JP2009217426A (ja) | 情報処理装置、リソース同定プログラム、リソース同定方法 | |
US8285742B2 (en) | Management of attribute information related to system resources | |
JP6772606B2 (ja) | データ処理プログラム、データ処理方法、及びデータ処理装置 | |
CN115328883A (zh) | 一种数据仓库建模方法和系统 | |
CN116483476B (zh) | 数据源的配置方法、装置、电子设备及存储介质 | |
JPWO2009069474A1 (ja) | 類似サービス検索システム、方法、及び、プログラム | |
JP6588988B2 (ja) | 業務プログラム生成支援システムおよび業務プログラム生成支援方法 | |
US20080082516A1 (en) | System for and method of searching distributed data base, and information management device | |
JP4852834B2 (ja) | アプリケーション要件設計支援システムおよび方法 | |
CN115982100A (zh) | 一种项目工程文件数据管理方法、系统及电子设备 | |
US20220035791A1 (en) | Verification method, information processing apparatus, and non-transitory computer-readable storage medium for storing verification program | |
JP6273969B2 (ja) | データ加工装置、情報処理装置、方法、およびプログラム | |
CN115733787A (zh) | 一种网络识别方法、装置、服务器及存储介质 | |
JP5358981B2 (ja) | 情報処理装置、情報処理装置の制御方法および情報処理装置の制御用プログラム | |
WO2020141968A1 (en) | A system and method for impact analysis of change request that affects database structure through classificiation and keyword similarity analysis | |
JP6221305B2 (ja) | 情報処理装置 | |
JP5535270B2 (ja) | 文書成分分析装置およびプログラム | |
US20050015400A1 (en) | Existing content utilization support method, information processing device, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6772606 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |