JP5785617B2 - データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 - Google Patents
データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 Download PDFInfo
- Publication number
- JP5785617B2 JP5785617B2 JP2013527511A JP2013527511A JP5785617B2 JP 5785617 B2 JP5785617 B2 JP 5785617B2 JP 2013527511 A JP2013527511 A JP 2013527511A JP 2013527511 A JP2013527511 A JP 2013527511A JP 5785617 B2 JP5785617 B2 JP 5785617B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- data set
- data
- metric
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
式中、Metriccol1(row,col)=0であれば、f(Metriccol1(row,col))=0であり、Metriccol1(row,col)>0であれば、f(Metriccol1(row,col))=1である。
式中、値(i)がメトリックの上位N個の最頻単語リスト内に存在しなければ、f(value(i))=0であり、値(i)がメトリックの上位N個の最頻単語リスト内に存在すれば、f(value(i))=1である。
式中、cは、定数であり、例えば、
である。
12、14、16、18:データ・セット
12’:単一データ値
20.1、20.2、20.3、20.4:特性(フィンガープリント)
22:一般統計量メトリック・アルゴリズム
24:最頻形式メトリック・アルゴリズム
26:最頻単語メトリック・アルゴリズム
28:バイグラム・メトリック・アルゴリズム
30:比較ユニット
32:第1の類似性関数
34:第1の信頼性関数
36:第2の類似性関数
38:第2の信頼性関数
40:比較結果
42:第1の類似性値
44:第1の信頼性値
46:第2の類似性値
48:第2の信頼性値
1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826:メトリック値
12’22、12’24、12’26、12’28:単一データ値のメトリック値
Claims (15)
- データ・セットを取り扱う方法であって、
コンピュータが、第1のデータ・セット(12、14、16、18)に関連付けられた第1の特性(20.1、20.2、20.3、20.4)、単一データ値(12’)、及び、第2のデータ・セット(12、14、16、18)に関連付けられた第2の特性(20.1、20.2、20.3、20.4)を提供するステップであって、前記提供された特性(20.1、20.2、20.3、20.4)が、前記第1のデータ・セット(12、14、16、18)、前記第2のデータ・セット(12、14、16、18)及び前記単一データ値(12’)の実行可能な比較を可能にする、ステップと、
前記コンピュータが、
・前記第1及び第2の特性に基づく、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との類似性、及び
・前記第1の特性及び前記単一データ値(12’)に基づく、前記第1のデータ・セット(12、14、16、18)と前記単一データ値(12’)との類似性、
のうちの少なくとも1つと、
・前記第1の特性に基づく、前記第1の特性が前記第1のデータ・セット(12、14、16、18)の性質をどの程度良く反映しているかを示す信頼性、及び
・前記第1の特性及び前記単一データ値(12’)に基づく、前記第1のデータ・セットと前記単一データ値(12’)との前記類似性が前記単一データ値の性質をどの程度良く反映しているかを示す信頼性
のうちの少なくとも1つを計算するステップと、
を含む、方法。 - 前記第1の特性(20.1、20.2、20.3、20.4)は、メトリック値の集合(1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)を含み、
前記メトリック値の集合(1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)内のそれぞれのメトリック値の各々は、前記第1のデータ・セットに対してそれぞれのメトリック・アルゴリズム(22、24、26、28)を適用することにより計算され、
前記各々のメトリック・アルゴリズム(22、24、26、28)は、
・前記メトリック値の集合内のそれぞれのメトリック値、並びに、前記単一データ値に適用された同じメトリック・アルゴリズムの値及び前記第2のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも1つの類似性値(42、46)と、
・前記メトリック値の集合内のそれぞれのメトリック値、並びに、前記単一データ値に適用された同じメトリック・アルゴリズムの値及び前記第2のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも1つの信頼性値(44、48)と、
を提供する、請求項1に記載の方法。 - 前記各々のメトリック・アルゴリズム(22、24、26、28)が、
第1の類似性値(42)を、前記第1のデータ・セット(12、14、16、18)の前記それぞれのメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)、及び前記第2のデータ・セット(12、14、16、18)に適用された同じメトリック・アルゴリズム(22、24、26、28)のメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)に基づいて計算するための第1の類似性関数(32)と、
前記メトリック・アルゴリズム(22、24、26、28)が前記第1のデータ・セット(12、14、16、18)の性質をどの程度良く反映しているかを示す第1の信頼性値(44)を、前記第1のデータ・セット(12、14、16、18)に基づいて計算するための第1の信頼性関数(34)と、
を少なくとも用いる、請求項2に記載の方法。 - 前記各々のメトリック・アルゴリズム(22、24、26、28)が、
第2の類似性値(46)を、前記第1のデータ・セット(12、14、16、18)の前記それぞれのメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)、及び前記単一データ値(12’)に適用された同じメトリック・アルゴリズム(22、24、26、28)のメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)に基づいて計算するための第2の類似性関数(36)と、
前記メトリック・アルゴリズム(22、24、26、28)が前記単一データ値(12’)の性質をどの程度良く良好に反映しているかを示す第2の信頼性値(48)を、前記第1のデータ・セット(12、14、16、18)の前記それぞれのメトリック値(1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)に基づいて計算するための第2の信頼性関数(38)と、
を、少なくとも用いる、請求項3に記載の方法。 - 前記コンピュータが、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との前記類似性、及び、前記第1のデータ・セットと前記単一データ値(12’)との前記類似性のうちの少なくとも一方を決定するために、前記少なくとも1つのメトリック・アルゴリズム(22、24、26、28)により提供される類似性値(42、46)の加重平均を計算するステップと、
前記コンピュータが、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との前記類似性を決定するための重みとして、少なくとも前記第1の信頼性値(44)を用いるステップと、
前記コンピュータが、前記第1のデータ・セット(12、14、16、18)と前記単一データ値(12’)との前記類似性を決定するための重みとして、少なくとも前記第2の信頼性値(48)を用いるステップと、
を含む、請求項4に記載の方法。 - 前記第1の特性に関連付けられた前記メトリック・アルゴリズム(22、24、26、28)は、一般統計量メトリック・アルゴリズム(22)、最頻形式メトリック・アルゴリズム(24)、最頻単語メトリック・アルゴリズム(26)、nグラム・メトリック・アルゴリズム(28)、及びニューラル・ネットワークに基づくメトリック・アルゴリズムのうちの少なくとも1つを含む、請求項5に記載の方法。
- 前記第1のデータ・セット(12、14、16、18)に関連付けられた前記第1の特性(20.1、20.2、20.3、20.4)と前記第2のデータ・セット(12、14、16、18)に関連付けられた前記第2の特性とが異なるメトリック・アルゴリズム(22、24、26、28)を含んでいる場合に、共通のメトリック・アルゴリズム(22、24、26、28)及び前記それぞれのメトリック値が類似性の計算に用いられる、請求項6に記載の方法。
- 前記コンピュータが、前記第1の特性(20.1、20.2、20.3、20.4)をメタデータ・リポジトリ内に格納することを含む、請求項7に記載の方法。
- 前記コンピュータが、前記第1及び第2の特性(20.1、20.2、20.3、20.4)に基づいて、前記第1のデータ・セット(12、14、16、18)及び前記第2のデータ・セット(12、14、16、18)のうちの少なくとも一方の領域を決定することを含む、請求項8に記載の方法。
- 前記コンピュータが、前記第1のデータ・セットの領域に関する情報を受け取ることと、前記第2のデータ・セット(12、14、16、18)が同じ領域に属するか否かを、前記決定された類似性及び前記決定された信頼性のうちの少なくとも一方に基づいて決定することとを含む、請求項9に記載の方法。
- 前記コンピュータが、前記第2の類似性値(46)が所定の条件を満たさない場合に、前記第2の類似性値(46)に基づいて、前記単一データ値(12’)が前記第1のデータ・セット(12、14、16、18)の前記領域と矛盾すると決定するステップ、及び、
前記コンピュータが、前記第2の類似性値(46)が所定の条件を満たす場合に、前記第2の類似性値(46)に基づいて、前記単一データ値(12’)が前記第1のデータ・セット(12、14、16、18)の前記領域と矛盾しないと決定するステップ
のうちの少なくとも一方を含む、請求項10に記載の方法。 - 前記コンピュータが、前記第1のデータ・セットを、前記第1の特性(20.1、20.2、20.3、20.4)に基づいて、データ変換におけるマッピング候補として検出することを含む、請求項1乃至請求項11のいずれか1項に記載の方法。
- データ・セットを取り扱うための装置であって、
第1のデータ・セット(12、14、16、18)に関連付けられた第1の特性(20.1、20.2、20.3、20.4)、単一データ値(12’)、及び、第2のデータ・セット(12、14、16、18)に関連付けられた第2の特性(20.1、20.2、20.3、20.4)を提供する手段であって、前記提供された特性が、前記第1のデータ・セット(12、14、16、18)、前記第2のデータ・セット(12、14、16、18)及び前記単一データ値(12’)の実行可能な比較を可能にする、手段(20)と、
・前記第1及び第2の特性に基づく、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との類似性、及び
・前記第1の特性及び前記単一データ値に基づく、前記第1のデータ・セット(12、14、16、18)と前記単一データ値(12’)との類似性、
のうちの少なくとも1つと、
・前記第1の特性に基づく、前記第1の特性が前記第1のデータ・セットの性質をどの程度良く反映しているかを示す信頼性、及び
・前記第1の特性及び前記単一データ値に基づく、前記第1のデータ・セットと前記単一データ値(12’)との前記類似性が前記単一データ値の性質をどの程度良く反映しているかを示す信頼性
のうちの少なくとも1つを計算するための手段(30)と、
を含む、装置。 - 請求項1乃至請求項12のいずれか1項に記載の方法の各ステップをコンピュータに実行させる、データ処理プログラム。
- 請求項14記載のデータ処理プログラムをコンピュータ可読媒体に記録した、記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP10176677.2 | 2010-09-14 | ||
EP10176677 | 2010-09-14 | ||
PCT/EP2011/062074 WO2012034733A2 (en) | 2010-09-14 | 2011-07-14 | Method and arrangement for handling data sets, data processing program and computer program product |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013541754A JP2013541754A (ja) | 2013-11-14 |
JP5785617B2 true JP5785617B2 (ja) | 2015-09-30 |
Family
ID=44628981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013527511A Active JP5785617B2 (ja) | 2010-09-14 | 2011-07-14 | データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8666998B2 (ja) |
EP (1) | EP2616960A2 (ja) |
JP (1) | JP5785617B2 (ja) |
CN (1) | CN103080924B (ja) |
WO (1) | WO2012034733A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019093675A1 (ko) * | 2017-11-10 | 2019-05-16 | (주) 위세아이텍 | 빅데이터 분석을 위한 데이터 병합 장치 및 방법 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8478705B2 (en) | 2010-01-15 | 2013-07-02 | International Business Machines Corporation | Portable data management using rule definitions |
US8949166B2 (en) | 2010-12-16 | 2015-02-03 | International Business Machines Corporation | Creating and processing a data rule for data quality |
US8898104B2 (en) | 2011-07-26 | 2014-11-25 | International Business Machines Corporation | Auto-mapping between source and target models using statistical and ontology techniques |
US8484170B2 (en) | 2011-09-19 | 2013-07-09 | International Business Machines Corporation | Scalable deduplication system with small blocks |
WO2014028860A2 (en) * | 2012-08-17 | 2014-02-20 | Opera Solutions, Llc | System and method for matching data using probabilistic modeling techniques |
US8805865B2 (en) * | 2012-10-15 | 2014-08-12 | Juked, Inc. | Efficient matching of data |
US9558230B2 (en) | 2013-02-12 | 2017-01-31 | International Business Machines Corporation | Data quality assessment |
US10332010B2 (en) * | 2013-02-19 | 2019-06-25 | Business Objects Software Ltd. | System and method for automatically suggesting rules for data stored in a table |
KR20140109729A (ko) * | 2013-03-06 | 2014-09-16 | 한국전자통신연구원 | 의미기반 검색 시스템 및 이의 검색방법 |
US20150089403A1 (en) * | 2013-09-20 | 2015-03-26 | Jin You ZHU | Dynamic generation of user interface |
CN104252515B (zh) * | 2013-12-04 | 2017-06-16 | 深圳市华傲数据技术有限公司 | 一种数据生成方法和装置 |
US9542456B1 (en) * | 2013-12-31 | 2017-01-10 | Emc Corporation | Automated name standardization for big data |
US10503709B2 (en) * | 2014-03-11 | 2019-12-10 | Sap Se | Data content identification |
GB2524074A (en) | 2014-03-14 | 2015-09-16 | Ibm | Processing data sets in a big data repository |
US9477713B2 (en) * | 2014-06-06 | 2016-10-25 | Netflix, Inc. | Selecting and ordering groups of titles |
US10387389B2 (en) * | 2014-09-30 | 2019-08-20 | International Business Machines Corporation | Data de-duplication |
CN105573971B (zh) * | 2014-10-10 | 2018-09-25 | 富士通株式会社 | 表格重构装置和方法 |
EP3029607A1 (en) * | 2014-12-05 | 2016-06-08 | PLANET AI GmbH | Method for text recognition and computer program product |
US9928284B2 (en) * | 2014-12-31 | 2018-03-27 | Zephyr Health, Inc. | File recognition system and method |
US10445897B2 (en) * | 2015-07-09 | 2019-10-15 | Canon Kabushiki Kaisha | Device for acquiring information relating to position displacement of multiple image data sets, method, and program |
US20170011314A1 (en) * | 2015-07-10 | 2017-01-12 | International Business Machines Corporation | Semi-Additive Data Modeling |
US10055430B2 (en) | 2015-10-14 | 2018-08-21 | International Business Machines Corporation | Method for classifying an unmanaged dataset |
JP7100422B2 (ja) | 2016-10-21 | 2022-07-13 | 富士通株式会社 | データプロパティ認識のための装置、プログラム、及び方法 |
US10635693B2 (en) | 2016-11-11 | 2020-04-28 | International Business Machines Corporation | Efficiently finding potential duplicate values in data |
US10585864B2 (en) | 2016-11-11 | 2020-03-10 | International Business Machines Corporation | Computing the need for standardization of a set of values |
EP3428813A1 (en) * | 2017-07-10 | 2019-01-16 | Informatica LLC | Method, apparatus, and computer-readable medium for determining a data domain of a data object |
US10594817B2 (en) * | 2017-10-04 | 2020-03-17 | International Business Machines Corporation | Cognitive device-to-device interaction and human-device interaction based on social networks |
US11263341B1 (en) * | 2017-10-11 | 2022-03-01 | Snap Inc. | Identifying personally identifiable information within an unstructured data store |
US20190130027A1 (en) | 2017-11-02 | 2019-05-02 | International Business Machines Corporation | Data classification |
US11397855B2 (en) * | 2017-12-12 | 2022-07-26 | International Business Machines Corporation | Data standardization rules generation |
US11106820B2 (en) | 2018-03-19 | 2021-08-31 | International Business Machines Corporation | Data anonymization |
US11474978B2 (en) * | 2018-07-06 | 2022-10-18 | Capital One Services, Llc | Systems and methods for a data search engine based on data profiles |
US20200074104A1 (en) * | 2018-08-28 | 2020-03-05 | Ca, Inc. | Controlling access to data in a database based on density of sensitive data in the database |
US11200215B2 (en) * | 2020-01-30 | 2021-12-14 | International Business Machines Corporation | Data quality evaluation |
US11455321B2 (en) | 2020-03-19 | 2022-09-27 | International Business Machines Corporation | Deep data classification using governance and machine learning |
US11500886B2 (en) | 2020-12-11 | 2022-11-15 | International Business Machines Corporation | Finding locations of tabular data across systems |
US11886468B2 (en) * | 2021-12-03 | 2024-01-30 | International Business Machines Corporation | Fingerprint-based data classification |
US20230206669A1 (en) * | 2021-12-28 | 2023-06-29 | Snap Inc. | On-device two step approximate string matching |
Family Cites Families (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5315709A (en) | 1990-12-03 | 1994-05-24 | Bachman Information Systems, Inc. | Method and apparatus for transforming objects in data models |
EP0513653A2 (en) | 1991-05-10 | 1992-11-19 | Siemens Aktiengesellschaft | Method for estimating similarity function coefficients from object classification data |
US5555346A (en) | 1991-10-04 | 1996-09-10 | Beyond Corporated | Event-driven rule-based messaging system |
US5283856A (en) | 1991-10-04 | 1994-02-01 | Beyond, Inc. | Event-driven rule-based messaging system |
JP3175849B2 (ja) | 1991-10-07 | 2001-06-11 | 株式会社日立製作所 | 電子秘書システム |
US5392390A (en) | 1992-04-10 | 1995-02-21 | Intellilink Corp. | Method for mapping, translating, and dynamically reconciling data between disparate computer platforms |
US5555388A (en) | 1992-08-20 | 1996-09-10 | Borland International, Inc. | Multi-user system and methods providing improved file management by reading |
US6963920B1 (en) | 1993-11-19 | 2005-11-08 | Rose Blush Software Llc | Intellectual asset protocol for defining data exchange rules and formats for universal intellectual asset documents, and systems, methods, and computer program products related to same |
US5684990A (en) | 1995-01-11 | 1997-11-04 | Puma Technology, Inc. | Synchronization of disparate databases |
US5729665A (en) | 1995-01-18 | 1998-03-17 | Varis Corporation | Method of utilizing variable data fields with a page description language |
US6029160A (en) | 1995-05-24 | 2000-02-22 | International Business Machines Corporation | Method and means for linking a database system with a system for filing data |
US5761671A (en) | 1996-10-25 | 1998-06-02 | International Business Machines Corporation | Method for interfacing queryable datestore persistent objects to non-relational, non-object-oriented datastores |
US6044381A (en) | 1997-09-11 | 2000-03-28 | Puma Technology, Inc. | Using distributed history files in synchronizing databases |
US5943676A (en) | 1996-11-13 | 1999-08-24 | Puma Technology, Inc. | Synchronization of recurring records in incompatible databases |
US5966717A (en) | 1996-12-20 | 1999-10-12 | Apple Computer, Inc. | Methods for importing data between database management programs |
US6301584B1 (en) | 1997-08-21 | 2001-10-09 | Home Information Services, Inc. | System and method for retrieving entities and integrating data |
US6230157B1 (en) | 1997-11-25 | 2001-05-08 | International Business Machines Corporation | Flattening complex data structures in Java/Javascript objects |
US6076090A (en) | 1997-11-26 | 2000-06-13 | International Business Machines Corporation | Default schema mapping |
US6279008B1 (en) | 1998-06-29 | 2001-08-21 | Sun Microsystems, Inc. | Integrated graphical user interface method and apparatus for mapping between objects and databases |
US6385618B1 (en) | 1997-12-22 | 2002-05-07 | Sun Microsystems, Inc. | Integrating both modifications to an object model and modifications to a database into source code by an object-relational mapping tool |
US6216131B1 (en) | 1998-02-06 | 2001-04-10 | Starfish Software, Inc. | Methods for mapping data fields from one data set to another in a data processing environment |
US6154748A (en) | 1998-04-07 | 2000-11-28 | International Business Machines Corporation | Method for visually mapping data between different record formats |
US6260187B1 (en) | 1998-08-20 | 2001-07-10 | Wily Technology, Inc. | System for modifying object oriented code |
US7197741B1 (en) | 1999-04-14 | 2007-03-27 | Adc Telecommunications, Inc. | Interface for an enterprise resource planning program |
US6460048B1 (en) | 1999-05-13 | 2002-10-01 | International Business Machines Corporation | Method, system, and program for managing file names during the reorganization of a database object |
US6408302B1 (en) | 1999-06-28 | 2002-06-18 | Davox Corporation | System and method of mapping database fields to a knowledge base using a graphical user interface |
US6539391B1 (en) * | 1999-08-13 | 2003-03-25 | At&T Corp. | Method and system for squashing a large data set |
JP3938872B2 (ja) | 2001-02-02 | 2007-06-27 | 松下電器産業株式会社 | データ分類装置および物体認識装置 |
US20020143818A1 (en) | 2001-03-30 | 2002-10-03 | Roberts Elizabeth A. | System for generating a structured document |
US7043492B1 (en) | 2001-07-05 | 2006-05-09 | Requisite Technology, Inc. | Automated classification of items using classification mappings |
US6947947B2 (en) | 2001-08-17 | 2005-09-20 | Universal Business Matrix Llc | Method for adding metadata to data |
US7136852B1 (en) * | 2001-11-27 | 2006-11-14 | Ncr Corp. | Case-based reasoning similarity metrics implementation using user defined functions |
US7080088B1 (en) | 2002-01-30 | 2006-07-18 | Oracle International Corporation | Automatic reconciliation of bindable objects |
US20070198910A1 (en) | 2002-03-26 | 2007-08-23 | Aatrix Software, Inc. | Method and apparatus for creating and filing forms |
US7200619B2 (en) | 2002-05-31 | 2007-04-03 | International Business Machines Corporation | Method and process to optimize correlation of replicated with extracted data from disparate data sources |
AU2003281390A1 (en) | 2002-07-09 | 2004-01-23 | Koninklijke Philips Electronics N.V. | Method and apparatus for classification of a data object in a database |
US7039898B2 (en) | 2002-07-12 | 2006-05-02 | Netspective Communications, Llc | Computer system for performing reusable software application development from a set of declarative executable specifications |
US20040083199A1 (en) | 2002-08-07 | 2004-04-29 | Govindugari Diwakar R. | Method and architecture for data transformation, normalization, profiling, cleansing and validation |
US7069269B2 (en) | 2002-12-03 | 2006-06-27 | International Business Machines Corporation | Method, system and program product for mapping data fields between a data source and a data target |
US7779345B2 (en) * | 2003-07-30 | 2010-08-17 | Aol Inc. | Reverse mapping method and apparatus for form filling |
US7739223B2 (en) | 2003-08-29 | 2010-06-15 | Microsoft Corporation | Mapping architecture for arbitrary data models |
US7506307B2 (en) | 2003-10-24 | 2009-03-17 | Microsoft Corporation | Rules definition language |
US7908548B2 (en) | 2003-10-24 | 2011-03-15 | Oracle International Corporation | User interface for establishing mappings from internal metadata to external metadata |
US20050131771A1 (en) * | 2003-12-15 | 2005-06-16 | Steven Tischer | System and method for generating data sets associated with an entity |
US7921110B1 (en) * | 2003-12-23 | 2011-04-05 | Netapp, Inc. | System and method for comparing data sets |
US7617531B1 (en) * | 2004-02-18 | 2009-11-10 | Citrix Systems, Inc. | Inferencing data types of message components |
US7870046B2 (en) | 2004-03-04 | 2011-01-11 | Cae Solutions Corporation | System, apparatus and method for standardized financial reporting |
US8359336B2 (en) | 2004-05-14 | 2013-01-22 | Oracle International Corporation | Interpreting remote objects at a local site |
US7870091B2 (en) | 2004-06-18 | 2011-01-11 | Sap Ag | Methods and systems for receiving data, selecting a condition table, selecting a ruleset based on the condition table, and determining and applying rules to data |
JP2006099236A (ja) * | 2004-09-28 | 2006-04-13 | Toshiba Corp | 分類支援装置、分類支援方法及び分類支援プログラム |
US7756882B2 (en) | 2004-10-01 | 2010-07-13 | Microsoft Corporation | Method and apparatus for elegant mapping between data models |
US20090019358A1 (en) | 2005-02-11 | 2009-01-15 | Rivet Software, Inc. A Delaware Corporation | Extensible business reporting language (xbrl) enabler for business documents |
US7536409B2 (en) | 2005-02-15 | 2009-05-19 | International Business Machines Corporation | Having a single set of object relational mappings across different instances of the same schemas |
US7472346B2 (en) | 2005-04-08 | 2008-12-30 | International Business Machines Corporation | Multidimensional XBRL engine |
US20060242181A1 (en) | 2005-04-22 | 2006-10-26 | Business Objects | Apparatus and method for transforming XBRL data into database schema |
US20070112827A1 (en) | 2005-11-10 | 2007-05-17 | International Business Machines Corporation | Abstract rule sets |
JP2007164591A (ja) | 2005-12-15 | 2007-06-28 | Hitachi Ltd | 財務情報の分析支援方法及びシステム |
US7657506B2 (en) | 2006-01-03 | 2010-02-02 | Microsoft International Holdings B.V. | Methods and apparatus for automated matching and classification of data |
JP4889347B2 (ja) | 2006-04-03 | 2012-03-07 | 株式会社エヌ・ティ・ティ・ドコモ | コンテンツ配信ルール作成システム及びコンテンツ配信ルール作成方法 |
US20080201172A1 (en) | 2006-04-25 | 2008-08-21 | Mcnamar Richard T | Method, system and computer software for using an xbrl medical record for diagnosis, treatment, and insurance coverage |
US20090030754A1 (en) | 2006-04-25 | 2009-01-29 | Mcnamar Richard Timothy | Methods, systems and computer software utilizing xbrl to identify, capture, array, manage, transmit and display documents and data in litigation preparation, trial and regulatory filings and regulatory compliance |
CN101578600A (zh) * | 2006-05-02 | 2009-11-11 | 皇家飞利浦电子股份有限公司 | 用于将一个用户的分类标签与由另一个用户定义的分类标签相关联的系统和方法 |
US8001607B2 (en) | 2006-09-27 | 2011-08-16 | Direct Computer Resources, Inc. | System and method for obfuscation of data across an enterprise |
US7814045B2 (en) | 2006-10-04 | 2010-10-12 | Sap Ag | Semantical partitioning of data |
US7836004B2 (en) | 2006-12-11 | 2010-11-16 | International Business Machines Corporation | Using data mining algorithms including association rules and tree classifications to discover data rules |
JP2008204444A (ja) | 2007-01-23 | 2008-09-04 | Just Syst Corp | データ処理装置、データ処理方法及び検索装置 |
JP4902863B2 (ja) * | 2007-01-26 | 2012-03-21 | 三菱電機株式会社 | テーブル分類装置 |
US8122045B2 (en) * | 2007-02-27 | 2012-02-21 | International Business Machines Corporation | Method for mapping a data source to a data target |
US20080319983A1 (en) * | 2007-04-20 | 2008-12-25 | Robert Meadows | Method and apparatus for identifying and resolving conflicting data records |
US8166000B2 (en) | 2007-06-27 | 2012-04-24 | International Business Machines Corporation | Using a data mining algorithm to generate format rules used to validate data sets |
US8171001B2 (en) | 2007-06-27 | 2012-05-01 | International Business Machines Corporation | Using a data mining algorithm to generate rules used to validate a selected region of a predicted column |
US8176003B2 (en) | 2007-06-29 | 2012-05-08 | Microsoft Corporation | Automatic designation of XBRL taxonomy tags |
US8401987B2 (en) | 2007-07-17 | 2013-03-19 | International Business Machines Corporation | Managing validation models and rules to apply to data sets |
US8103704B2 (en) | 2007-07-31 | 2012-01-24 | ePrentise, LLC | Method for database consolidation and database separation |
US7797289B2 (en) | 2007-09-05 | 2010-09-14 | Oracle International Corporation | Method and apparatus for automatically executing rules in enterprise systems |
US8266168B2 (en) * | 2008-04-24 | 2012-09-11 | Lexisnexis Risk & Information Analytics Group Inc. | Database systems and methods for linking records and entity representations with sufficiently high confidence |
US20090307240A1 (en) * | 2008-06-06 | 2009-12-10 | International Business Machines Corporation | Method and system for generating analogous fictional data from non-fictional data |
US9535959B2 (en) * | 2008-11-21 | 2017-01-03 | Li Sun | Method and apparatus for reconciliation of multiple sets of data |
US8843487B2 (en) | 2009-08-18 | 2014-09-23 | Black Oak Partners, Llc | Process and method for data assurance management by applying data assurance metrics |
CN101702172A (zh) * | 2009-11-10 | 2010-05-05 | 大连理工大学 | 一种基于类-属性关系依赖度的数据离散化方法 |
US8478705B2 (en) | 2010-01-15 | 2013-07-02 | International Business Machines Corporation | Portable data management using rule definitions |
US8612164B2 (en) * | 2010-02-10 | 2013-12-17 | Chevron U.S.A. Inc. | Method of maintaining a pipeline |
US8620930B2 (en) * | 2010-03-11 | 2013-12-31 | Yahoo! Inc. | Method and system for determining similarity score |
US10209967B2 (en) * | 2010-10-18 | 2019-02-19 | Infosys Technologies Ltd. | System and method for detecting preventative maintenance operations in computer source code |
US8180811B2 (en) | 2010-10-19 | 2012-05-15 | Symantec Corporation | Identifying unreferenced file system components |
US8949166B2 (en) | 2010-12-16 | 2015-02-03 | International Business Machines Corporation | Creating and processing a data rule for data quality |
US8515962B2 (en) | 2011-03-30 | 2013-08-20 | Sap Ag | Phased importing of objects |
US10013439B2 (en) | 2011-06-27 | 2018-07-03 | International Business Machines Corporation | Automatic generation of instantiation rules to determine quality of data migration |
US8898104B2 (en) | 2011-07-26 | 2014-11-25 | International Business Machines Corporation | Auto-mapping between source and target models using statistical and ontology techniques |
-
2011
- 2011-06-30 US US13/173,383 patent/US8666998B2/en active Active
- 2011-07-14 WO PCT/EP2011/062074 patent/WO2012034733A2/en active Application Filing
- 2011-07-14 CN CN201180042917.2A patent/CN103080924B/zh active Active
- 2011-07-14 JP JP2013527511A patent/JP5785617B2/ja active Active
- 2011-07-14 EP EP11735845.7A patent/EP2616960A2/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019093675A1 (ko) * | 2017-11-10 | 2019-05-16 | (주) 위세아이텍 | 빅데이터 분석을 위한 데이터 병합 장치 및 방법 |
KR20190053616A (ko) * | 2017-11-10 | 2019-05-20 | (주)위세아이텍 | 빅데이터 분석을 위한 데이터 병합 장치 및 방법 |
KR102033151B1 (ko) | 2017-11-10 | 2019-10-16 | (주)위세아이텍 | 빅데이터 분석을 위한 데이터 병합 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2012034733A2 (en) | 2012-03-22 |
JP2013541754A (ja) | 2013-11-14 |
WO2012034733A3 (en) | 2012-11-08 |
EP2616960A2 (en) | 2013-07-24 |
CN103080924A (zh) | 2013-05-01 |
US8666998B2 (en) | 2014-03-04 |
US20120066214A1 (en) | 2012-03-15 |
CN103080924B (zh) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5785617B2 (ja) | データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 | |
KR100544514B1 (ko) | 검색 쿼리 연관성 판단 방법 및 시스템 | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
US8122045B2 (en) | Method for mapping a data source to a data target | |
JP4920023B2 (ja) | オブジェクト間競合指標計算方法およびシステム | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
US10452627B2 (en) | Column weight calculation for data deduplication | |
Qahtan et al. | FAHES: A robust disguised missing values detector | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
Ambert et al. | K-information gain scaled nearest neighbors: a novel approach to classifying protein-protein interaction-related documents | |
US11557141B2 (en) | Text document categorization using rules and document fingerprints | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
CN112181490A (zh) | 功能点评估法中功能类别的识别方法、装置、设备及介质 | |
US20230023636A1 (en) | Methods and systems for preparing unstructured data for statistical analysis using electronic characters | |
Trushkowsky et al. | Getting it all from the crowd | |
CN111341404B (zh) | 一种基于ernie模型的电子病历数据组解析方法及系统 | |
JP5020274B2 (ja) | 意味ドリフトの発生評価方法及び装置 | |
US8359329B2 (en) | Method, computer apparatus and computer program for identifying unusual combinations of values in data | |
CN112215006A (zh) | 机构命名实体归一化方法和系统 | |
US20230359826A1 (en) | Computer-implemented system and method to perform natural language processing entity research and resolution | |
US20230046539A1 (en) | Method and system to align quantitative and qualitative statistical information in documents | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140304 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5785617 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |