JP5785617B2 - データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 - Google Patents

データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 Download PDF

Info

Publication number
JP5785617B2
JP5785617B2 JP2013527511A JP2013527511A JP5785617B2 JP 5785617 B2 JP5785617 B2 JP 5785617B2 JP 2013527511 A JP2013527511 A JP 2013527511A JP 2013527511 A JP2013527511 A JP 2013527511A JP 5785617 B2 JP5785617 B2 JP 5785617B2
Authority
JP
Japan
Prior art keywords
value
data set
data
metric
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013527511A
Other languages
English (en)
Other versions
JP2013541754A (ja
Inventor
セイレット、ヤニック
オーバーホーファー、マーティン
サイフェルト、ジェンズ
ネルケ、セバスチャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2013541754A publication Critical patent/JP2013541754A/ja
Application granted granted Critical
Publication of JP5785617B2 publication Critical patent/JP5785617B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、一般に、データ管理の分野に関し、より具体的には、データ・セットを取り扱うための方法及び構成に関する。さらに具体的には、本発明は、データ・セットを取り扱うためのデータ処理プログラム及びコンピュータ・プログラム製品に関する。
データ統合プロジェクトにおける課題は常に、理解することが必要とされるデータ・ソースの量である。企業の情報技術(IT)アプリケーションは通常、数千個もの表の使用を伴い、これらの表の各々が数百もの列を含む。これらの列の各々の意味及びセマンティックは、文書化されていない場合が多く、統合作業を開始することができるようになる前にデータを理解することは、単調ではあるが不可欠なタスクである。
このタスクを容易にするために、IBM InfoSphere Information Analyzerのような、ユーザがデータ・ソースを理解して文書化することを、これらのソースに含まれたデータを直接見て調べることによって支援するためのデータ理解ツールが考案されている。
このようなツールに共通する特徴は、解析される各列について、列の濃度、最小/最大値、最頻値などの一般統計量を計算すること、単一の列内にどのような異なる値が含まれているのか、そしてそれら異なる値がどのような頻度であるかをユーザに示す値分布、その列の値がどのような異なる形式を使用しているか(例えば、ZIPコードが、その事例の60%では5桁の値として表され、事例の40%では5桁の値に4桁の値が続く形で表されていること)をユーザに示す形式解析、データベースのメタデータ内で定義されたその列のデータ型とは独立して、その列の値が実際にはどのような型式を使用しているか(例えば、記号ベースの列が、記号列としてコード化された数値のみを含み得ること)をユーザに示す推論された型式、及び、例えばその列がフリーテキスト、数字又はコードを含んでいるというような基本的なデータ分類である。
上記のInformation Analyzerのような高度なデータ・プロファイリング・ツールは、さらに、列のデータから特定の領域(ドメイン)を検出する専用アルゴリズムの使用を可能にする。例えば、正規表現又は値の辞書を使用することにより、そのようなアルゴリズムは、ある列が、ZIPコード、米国内住所、個人名、電子メールアドレス、電話番号などを含んでいることを検出することが可能であり得る。
列をその列が含む値に基づいて分類するこの能力は、暗号化された物理ソースをセマンティック情報と共に文書化し、ユーザが良く理解できるビジネス用語又は論理モデルへとこれをマッピングすることを容易にするので、重要である。しかしながら、技術的現状において、データの分類に用いられるアルゴリズムはその領域独自のものである。米国内住所、人名などのような古典的な領域については、そのまますぐ使える専用アルゴリズムが供給される。しかしながら、製品参照、企業コード、チケット・レポートなどのような会社独自の領域、又は、例えばベルギー国内の郵便番号のような一般的でない領域については、その特定の領域に関する新たなアルゴリズムを記述してツールにプラグインしなければならない。このようなアルゴリズムの開発には特別な知識が必要とされるので、ユーザは通常、そのデータの大部分を、データを見て調べ、専門知識を用いてその領域を認識することにより、手動で分類しなければならない。個々の列ごとのデータは、その列のセマンティックが別の列で用いられている場合であっても手動で評価しなければならないので、これは時間のかかる作業である。
Lingenfelder他による特許文献1「METHOD FOR MAPPING A DATA SOURCE TO A DATA TARGET」において、データベース・ソースからの少なくとも1つのデータ列をデータ・ターゲットの少なくとも1つのデータ列にマッピングするための方法が開示されている。開示された方法においては、データ・ターゲットの少なくとも1つの参照列と、少なくとも1つのデータベース・ソース列とが定義される。さらに、データ列に含まれるデータと参照列との比較が行われる。最後に、データ列と参照列との間でのマッピング候補が決定される。
米国特許出願公開第2008/0208855 A1号明細書
本発明の根底にある技術的課題は、専用アルゴリズムの使用を必要とすることなく、かつ、上記の欠点及び短所を伴わずに、いかなる領域内のデータの分類をも容易にすることができる、データ・セットを取り扱うための方法及び構成を提供すること、並びに、データ・セットを取り扱うための方法を実施するためのデータ処理プログラム及びコンピュータ・プログラム製品を提供することである。
本発明によれば、この課題は、請求項1の特徴を有する、データ・セットを取り扱うための方法、請求項13の特徴を有する、データ・セットを取り扱うための構成、請求項14の特徴を有するデータ処理プログラム、及び請求項15の特徴を有するコンピュータ・プログラム製品を提供することにより解決される。本発明の有利な実施形態は、従属請求項において言及される。
したがって、本発明の1つの実施形態において、データ・セットを取り扱うための方法は、第1のデータ・セットに関連付けられた第1の特性、並びに、単一データ値、及び、第2のデータ・セットに関連付けられた第2の特性のうちの少なくとも一方を提供するステップであって、提供された特性が、第1のデータ・セット、第2のデータ・セット及び単一データ値の実行可能な比較を可能にする、ステップと、第1及び第2の特性に基づく第1のデータ・セットと第2のデータ・セットとの類似性、第1の特性及び単一データ値に基づく第1のデータ・セットと単一データ値との類似性、第1の特性に基づく、第1の特性が第1のデータ・セットの性質をどの程度良く反映しているかを示す信頼性、及び、第1の特性及び単一データ値に基づく、第1のデータ・セットと単一データ値との類似性が単一データ値の性質をどの程度良く反映しているかを示す信頼性、のうちの少なくとも1つを計算するステップとを含む。
本発明の更なる実施形態において、第1の特性は、メトリック値の集合を含み、メトリック値の集合内のそれぞれのメトリック値の各々は、第1のデータ・セットに対してそれぞれのメトリック・アルゴリズムを適用することにより計算され、各々のメトリック・アルゴリズムは、メトリック値の集合内のそれぞれのメトリック値、並びに、単一データ値に適用された同じメトリック・アルゴリズムの値及び第2のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも1つの類似性値と、メトリック値の集合内のそれぞれのメトリック値、並びに、単一データ値に適用された同じメトリック・アルゴリズムの値及び第2のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも1つの信頼性値とを提供する。
本発明の更なる実施形態において、各々のメトリック・アルゴリズムは、第1の類似性値を、第1のデータ・セットのそれぞれのメトリック値及び第2のデータ・セットに適用された同じメトリック・アルゴリズムのメトリック値に基づいて計算するための第1の類似性関数と、メトリック・アルゴリズムが第1のデータ・セットの性質をどの程度良く反映しているかを示す第1の信頼性値を、第1のデータ・セットに基づいて計算するための第1の信頼性関数とを、少なくとも用いている。
本発明の更なる実施形態において、各々のメトリック・アルゴリズムは、第2の類似性値を、第1のデータ・セットのそれぞれのメトリック値及び単一データ値に適用された同じメトリック・アルゴリズムのメトリック値に基づいて計算するための第2の類似性関数と、メトリック・アルゴリズムが単一データ値の性質をどの程度良く反映しているかを示す第2の信頼性値を、第1のデータ・セットのそれぞれのメトリック値に基づいて計算するための第2の信頼性関数とを、少なくとも用いている。
本発明の更なる実施形態において、本方法は、第1のデータ・セットと第2のデータ・セットとの類似性、及び第1のデータ・セットと単一データ値との類似性のうちの少なくとも一方を決定するために、少なくとも1つのメトリック・アルゴリズムにより提供される類似性値の加重平均を計算するステップと、第1のデータ・セットと第2のデータ・セットとの類似性を決定するための重みとして、少なくとも第1の信頼性値を用いるステップと、第1のデータ・セットと単一データ値との類似性を決定するための重みとして、少なくとも第2の信頼性値を用いるステップとを含む。
本発明の更なる実施形態において、第1の特性に関連付けられたメトリック・アルゴリズムは、一般統計量メトリック・アルゴリズム、最頻形式メトリック・アルゴリズム、最頻単語メトリック・アルゴリズム、nグラム・メトリック・アルゴリズム、及びニューラル・ネットワークに基づくメトリック・アルゴリズムのうちの少なくとも1つを含む。
本発明の更なる実施形態において、第1のデータ・セットに関連付けられた第1の特性と第2のデータ・セットに関連付けられた第2の特性とが異なるメトリック・アルゴリズムを含んでいる場合に、共通のメトリック・アルゴリズム及びそれぞれのメトリック値が類似性の計算に用いられる。
本発明の更なる実施形態において、本方法は、第1の特性をメタデータ・リポジトリ内に格納するステップを含む。
本発明の更なる実施形態において、本方法は、第1及び第2の特性に基づいて、第1のデータ・セット及び第2のデータ・セットのうちの少なくとも一方の領域を決定するステップを含む。
本発明の更なる実施形態において、本方法は、第2の類似性値が所定の条件を満たさない場合に、第2の類似性値に基づいて、単一データ値が第1のデータ・セットの領域と矛盾すると決定するステップ、及び、第2の類似性値が所定の条件を満たす場合に、第2の類似性値に基づいて、単一データ値が第1のデータ・セットの領域と矛盾しないと決定するステップのうちの少なくとも一方を含む。
本発明の更なる実施形態において、本方法は、第1のデータ・セットを、第1の特性に基づいて、データ変換におけるマッピング候補として検出するステップを含む。
本発明の別の実施形態において、データ・セットを取り扱うための構成は、第1のデータ・セットに関連付けられた第1の特性、並びに、単一データ値、及び、第2のデータ・セットに関連付けられた第2の特性のうちの少なくとも一方を提供する手段であって、提供された特性が、第1のデータ・セット、第2のデータ・セット及び単一データ値の実行可能な比較を可能にする、手段と、第1及び第2の特性に基づく第1のデータ・セットと第2のデータ・セットとの類似性、第1の特性及び単一データ値に基づく第1のデータ・セットと単一データ値との類似性、第1の特性に基づく、第1の特性が第1のデータ・セットの性質をどの程度良く反映しているかを示す信頼性、及び、第1の特性及び単一データ値に基づく、第1のデータ・セットと単一データ値との類似性が単一データ値の性質をどの程度良く反映しているかを示す信頼性のうちの少なくとも1つを計算するための手段とを含む。
本発明の別の実施形態において、データ処理システム内での実行のためのデータ処理プログラムは、該プログラムがデータ処理システム上で実行されたときにデータ・セットを取り扱う方法を実施するための、ソフトウェア・コード部分を含む。
本発明のさらに別の実施形態において、コンピュータ使用可能媒体上に格納されたコンピュータ・プログラム製品は、該プログラムがデータ処理システム上で実行されたときにデータ・セットを取り扱う方法をコンピュータに実施させるための、コンピュータ可読プログラム手段を含む。
全体的に見て、本発明の実施形態は、専用アルゴリズムの使用を必要とすることなく、いかなる領域内のデータの分類をも容易にするシステムを提供する。さらに、本発明の実施形態は、対応するデータ・セットの領域に適合しない値を、領域とは独立的した方式で自動的に検出することを容易にするシステムを提供する。
従って、本発明の実施形態は、データ統合プロジェクトにおいて統合されるデータの質を評価する。データが人間により入力されたものである場合、例えば、コール・センタのオペレータによって記入される入力マスクからのデータの場合には、特定の列に入力されたデータ値がその列の領域に対応していないことが非常に頻繁に生じる。よくある例は、電話番号が含まれるべきフィールド内に、電話番号が入手できないがそのアプリケーションがこのフィールドに値を要求するという理由で、オペレータが電子メールアドレスを入力する場合である。別の例は、人々が、必須のフィールドに、何を記入していいかわからない、又は正しい値を有していないなどの理由で、でたらめな文字の組み合わせ、又は単純に「−」を記入する場合である。データの質を評価するために、及び、新たなターゲット・システム内にロードされる前にこれらのデータ値を訂正するためには、各列がどのような共通の無効値の型式を含んでいる可能性があるのかを理解すること、及び、それらの無効値を検出することが重要である。
技術的現状において、この問題は、各列について値分布及び形式分布を計算して、何が有効/無効な値/形式であるかをユーザが定義することを可能にする、上記のInformation Analyzerのようなデータ・プロファイリング・ツールを用いることによって表面化する。このツールは、データを表示して記述することによってユーザをサポートするに過ぎない。ユーザは、所与の列について、どの値が有効であり、どの値が無効であるかを手動で決定しなければならない。その後で、ツールは、指定された列の値がユーザによって定義された基準を満たさない全ての行を見つけ出すことが可能になる。この手法は、ユーザが各列を検討して、その列の値に対して1つ又は複数の有効性基準を定義することを必要とするので、非常に時間がかかる。その他にも、特定の型式の列を取り扱うことは、この機構には非常に困難である。例えば、限定されたカテゴリ値の集合を含む列、例えば「M」及び「F」という2つの異なる値のみを有することができる性別の列ついて、何が有効値であるか否かを明示的に指定することによって定義することは、時間はかかるが簡単である。ZIPコード、SSN番号、電話番号、電子メールアドレスのような特定の形式に従う値を含む列について、各々の値がその列の領域に所属するか否かを実証する正規表現を定義することもまた、時間はかかるが実行可能である。他方おいて、人名、会社名、又は、一意の値及び繰り返し可能ではない形式を含むいずれかの型式のデータのような、構造化されていない又は標準化されていないデータを含む列については、このような規則を定義することは困難であり、むしろ不可能である。
本発明の中核となる着想は、各データ・セットについて、例えば列などの対応するデータ・セット内に含まれるデータのクラスを特徴付ける「フィンガープリント」と呼ばれる特性を自動的に計算することである。このようなフィンガープリントは、そのデータの異なる態様を捕捉する幾つかのメトリックから成る。フィンガープリントを構成する各メトリックは、対応するメトリック・アルゴリズムを用いて計算される。提案されるメトリックに関する詳細は本開示において後ほど説明するが、メトリックの例は、データ・セットの全てのデータ値の中の各々の記号又は記号の組み合わせの頻度を計量するメトリック、データ・セットのデータ値の中で最も頻度の高い語又は形式を計量するメトリック、データ・セットのデータ値についての平均長、文字又は数字の割合などの多様な統計量を計量するメトリックなどであり得る。また、「フィンガープリント概念」は特定のメトリック・アルゴリズムに依存しないので、新たなメトリック・アルゴリズムをシステムに追加することができる。使用される各メトリック・アルゴリズムは、あるデータ・セットと、判定すべき別のデータ・セットに属する同じ型式のメトリック・アルゴリズムとの間の類似性スコアを、これら2つのデータ・セットが類似のデータ値を含む場合にすばやく計算すること、及び、あるデータ・セットと判定すべき単一データ値との間の類似性スコアを、このデータ値がこのデータ・セットに属する可能性がある場合にすばやく計算することを可能にする方法を提供するものであるべきである。
メトリック・アルゴリズムのうちの幾つかは、データ・セット内のデータの型式に依存して、より妥当である場合も、又はあまり妥当ではない場合もある。例えば、最頻形式を捕捉するメトリック・アルゴリズムは、例えば住所フィールドのように非常に多数の形式を有するデータを含むデータ・セットに対してはあまり良い代表とはならないが、他方、例えばZIPコードのような一定の形式を有する値を含むデータ・セットに対しては非常に妥当である。この理由で、各メトリック・アルゴリズムは、それが属するデータ・セットに対するそのメトリック・アルゴリズムの信頼性を計算する方法を提供することができるものであるべきである。そのため、本発明の実施形態で用いられるメトリック・アルゴリズムは、2つの異なるデータ・セットに属する2つのフィンガープリント間の類似性スコア、又はフィンガープリントと1つの単一データ値との間の類似性スコアをすばやく計算することを可能にする。
2つのデータ・セットの2つのフィンガープリントを比較する場合、低スコアは、2つのデータ・セット間に領域の一致がないことを示す。従って、この2つのデータ・セットは異なって見えるデータを含んでいる。100%に近いスコアは、2つのデータ・セットの間の領域の一致を示す。従って、この2つのデータ・セットは、データが、類似の特性を提示しているので、同じ型式のデータを含んでいる可能性が高い。
フィンガープリントを単一データ値と比較する場合、低スコアは、その値がそのデータ・セットの領域に良く一致しないことを示す。100%に近い値は、その値が、フィンガープリントを所有するデータ・セットの値の領域と矛盾しないことを示す。単一データ値をデータ・セットのフィンガープリントと比較するために、データ・セットのフィンガープリントを決定するために用いられたメトリック・アルゴリズムが、単一データ値の対応するフィンガープリントを決定するためにも用いられる。
データ・セットを解析するときに、各データ・セットのフィンガープリントを計算するために時間費用が高い努力を要する。一旦計算されると、このフィンガープリントは、シリアル化され、解析されたデータ・セットのメタデータに添付することができ、容易に取り出すことができる。2つのフィンガープリントを互いに比較する操作、又は1つのフィンガープリントをデータ値と比較する操作はこれに比べて低費用なので、多数の列の対を短時間で互いに比較することができる。
一旦、各データ・セットについてフィンガープリントが計算され(これはデータ解析操作中に行われる)、メタデータ・リポジトリ内に格納されると、上記のInformation Analyzerのようなデータ・プロファイリング・ツールは、これらのフィンガープリントを用いて半自動データ解析方式を提供することができる。
従来技術の場合と同様に、ユーザは最初に、データ・セットの少数のデータ値を見て調べ、このデータ・セットのためのデータ・クラスを手動で設定する必要があるが、データ・セットのデータ・クラスが定義されるたびに、本発明の実施形態は、事前計算されたフィンガープリントを用いて、検討されたデータ・セットと同様の類似のフィンガープリントを有する全ての他のデータ・セットを見つけ出すことができる。それに基づいて、本発明の実施形態は、定義された閾値を超えた類似性を有する未検討の全てのデータ・セットのデータ・クラスを自動的に設定することができ、又は、ユーザが新たなデータ・セットの領域を定義することを所望する場合には、この情報を用いて、領域が既知のデータ・セットとの類似性に基づいて、ユーザにデータ・クラスを示唆することができる。
この半自動プロセスは、ユーザの検討作業を著しく加速する。ユーザが、どのデータ・セットも定義された領域を有していないシステムから開始する場合であっても、ユーザは、個々のデータ・セット各々の値を深く調査する必要はない。その代わりに、ユーザは少数のデータ・セットの少数のデータ値に対してそれを行うだけでよい。次いで、本発明の実施形態は、未検討のデータ・セットとの類似性を見いだす。例えば幾つかのレガシー・システムの新規システムへの統合を背景とした、未知システムのデータを既知システムに移動すべきデータ移送プロセスにおいては、ターゲット・システムのデータ・セットのデータ・クラスは全て既知である。その場合、ターゲット・システムは十分な例を含んでいるので、各ソース・データ・セットの領域を推定するプロセスは、ユーザが最初にデータ値の小さいコアを手動で解析することを必要としないであろう。
フィンガープリントは、対応するデータ・セットの領域に適合しないデータ値を自動的に検出することもまた可能にする。あるデータ・セットの全ての単一データ値を、そのデータ・セットのフィンガープリントと比較することができる。フィンガープリントは次に、各々の単一データ値について、データ値のソートに用いることができるスコアを生成する。最も低いスコアを有するデータ値は、そのデータ・セットの領域に適合しない可能性があるデータ値であり、手動による検討を必要とする。
このようなフィンガープリントは、データ変換におけるマッピング候補の検出などのような、その他の問題を解決するために用いることもできる。
本発明の上記の、及び更なる目的、特徴、及び利点は、以下の詳細な説明において明らかとなる。
以下で詳細に説明される本発明の好ましい実施形態を図面で示す。
本発明の一実施形態によるデータ処理システムの概略的なブロック図である。 本発明の一実施形態によるデータ・セットを取り扱うための方法の概略的な流れ図である。 本発明の一実施形態による、異なるデータ・セットのメタデータに添付される特性を示すブロック図である。 本発明の実施形態により用いられる特性としてフィンガープリントを実装するUMLモデルである。 本発明の実施形態によりデータ・セットの特性を計算するためのメトリック・アルゴリズムとして用いられる、最頻単語アルゴリズムを示すブロック図である。 本発明の実施形態によりデータ・セットの特性を計算するためのメトリック・アルゴリズムとして用いられる、最頻形式アルゴリズムを示すブロック図である。 2つの異なるデータ・セット内のデータ値の長さについての正規分布を各々が表す、2つのガウス曲線を示す図である。 2つの異なるデータ・セットのデータ値における単語の数に関する正規分布を各々が表す、2つのガウス曲線を示す図である。 2つの異なるデータ・セットのデータ値における文字の割合についての正規分布を各々が表す、2つのガウス曲線を示す図である。 2つの異なるデータ・セットのデータ値における数字の割合についての正規分布を各々が表す、2つのガウス曲線を示す図である。 データ・セット内のデータ値の長さについての正規分布を表すガウス曲線及び単一データ値の長さを示す図である。 データ・セットのデータ値における単語の数についての正規分布を表すガウス曲線及び単一データ値における単語の数を示す図である。 データ・セットのデータ値における文字の割合についての正規分布を表すガウス曲線及び単一データ値における文字の割合を示す図である。 データ・セットのデータ値における数字の割合についての正規分布を表すガウス曲線及び単一データ値における数字の割合を示す図である。
図1は、本発明の実施形態によるデータ処理システム10を示し、図2は、本発明の実施形態による、データ・セット12、14を取り扱うための方法を示す。
図1及び図2を参照すると、本発明の図示された実施形態は、データ・セット12、14を取り扱うための方法を使用し、この方法は、ステップS10において、第1のデータ・セット12に関連付けられた第1の特性20.1又はいわゆる「フィンガープリント」、並びに、単一データ値、及び、第2のデータ・セット14に関連付けられた第2の特性20.2のうちの少なくとも一方を提供することを含み、提供された特性20.1、20.2が、第1のデータ・セット12、第2のデータ・セット14及び単一データ値12’の実行可能な比較を可能にする。単一データ値12’を第1のデータ・セット12と比較するために、特性20.1は、通常は、単一データ値12’についても決定される。単一データ値についてのこの特性は、事前計算することもでき、又は第1のデータ・セットと単一データ値12’との比較が行われるときに計算することもできる。ステップS20において、第1及び第2の特性20.1、20.2に基づく第1のデータ・セット12と第2のデータ・セット14との類似性、第1の特性20.1及び単一データ値12’に基づく第1のデータ・セット12と単一データ値12’との類似性、第1の特性20.1に基づく、第1の特性20.1が第1のデータ・セット12の性質をどの程度良く反映しているかを示す信頼性、並びに、第1の特性20.1及び単一データ値12’に基づく、第1のデータ・セット12と単一データ値12’との類似性が単一データ値の性質をどの程度良く反映しているかを示す信頼性、のうちの少なくとも1つが計算される。図1において、単一データ値12’を表す、又は単一データ値12’に適用される構成要素は、破線で示される。第1のデータ・セットを、類似性値に基づいて第2のデータ・セット及び単一データ値と比較して、第1のデータ・セットと第2のデータ・セット又は単一の値とが同じデータ領域内にあるか否かを評価することができる。
さらに図1を参照すると、図示された実施形態において、データ処理システム10は、ブロック20において、4つのメトリック・アルゴリズム22、24、26、28を用いて、第1のデータ・セット12の第1の特性20.1の一部であるメトリック値1222、1224、1226、1228を計算し、かつ、第1のデータ・セット12と比較される第2のデータ・セット14の第2の特性20.2の一部であるメトリック値1422、1424、1426、1428を計算する。代替的に、4つのメトリック・アルゴリズム22、24、26、28より多い又は少ないメトリック・アルゴリズムを用いて、第2の特性20.2のメトリック値1422、1424、1426、1428を計算することができる。更なる代替法として、ブロック20は、第1のデータ・セット12の第1の特性20.1及び第2のデータ・セット14の第2の特性20.2のうちの少なくとも一方を外部ソースから受け取り、更なる処理のためにそれらを提供する。このように、データ・セット12、14の特性20.1、20.2は、前処理中に決定することができる。
第1のデータ・セット12が単一データ値12’と比較される場合には、ブロック20において、第2のデータ・セット14のメトリック値1422、1424、1426、1428の代わりに、単一データ値12’の対応するメトリック値12’22、12’24、12’26、12’28が、第1のデータ・セット12の第1の特性20.1を計算するために用いられたメトリック・アルゴリズム22、24、26、28によって計算される。これは、一般に比較に関連して行われ、前処理中には行われない。メトリック・アルゴリズム22、24、26、28は、対応するメトリック値1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428に加えて、少なくとも1つの類似性値42、46及び少なくとも1つの信頼性値44、48を、メトリック値1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428に基づいて提供する。各メトリック・アルゴリズム22、24、26、28は、比較ユニット30の第1の類似性関数32を用いて、第1のデータ・セット12のメトリック値1222、1224、1226、1228、及び、第2のデータ・セット14に適用された同じメトリック・アルゴリズム22、24、26、28のメトリック値1422、1424、1426、1428に基づいて、第1の類似性値42を計算し、比較ユニット30の第1の信頼性関数34を用いて、第1のデータ・セット12のメトリック値1222、1224、1226、1228に基づいて、対応するメトリック・アルゴリズム22、24、26、28が第1のデータ・セット12の性質をどの程度良く反映しているかを示す第1の信頼性値44を計算する。
さらに、各メトリック・アルゴリズムは、比較ユニット30の破線で示された第2の類似性関数36を用いて、第1のデータ・セット12のメトリック値1222、1224、1226、1228、及び、単一データ値12’に適用された同じメトリック・アルゴリズム22、24、26、28のメトリック値12’22、12’24、12’26、12’28に基づいて、第2の類似性値46を計算し、比較ユニット30の同じく破線で示された第2の信頼性関数38を用いて、第1のデータ・セット12及び単一データ値12’のメトリック値1222、1224、1226、1228、12’22、12’24、12’26、12’28に基づいて、第1のデータ・セット12、14、16、18のメトリック・アルゴリズム22、24、26、28が、単一データ値12’の性質をどの程度良く反映しているかを示す第2の信頼性値48を計算する。第1及び第2の類似性値42、46、並びに第1及び第2の信頼性値44、48は、比較ユニット30により生成される比較結果40の一部である。別の言い方をすれば、類似性は、2つのデータ・セット12、14の、又は、1つのデータ・セット12及び単一データ値12’の関数である。厳密に言えば、類似性は、各々が1つの対応するデータ・セットについて決定されたメトリック値の2つの集合の関数、又は、1つはデータ・セットについて決定され、もう1つは単一データ値について決定されたメトリック値の2つの集合の関数のうちの一方である。類似性が計算される時点では、データ・セット全体は典型的にはもはや利用できず、メトリック値のみが利用可能である。信頼性は、メトリック・アルゴリズム自体の関数であり、メトリック・アルゴリズムが、そのメトリック・アルゴリズムの計算が行われたデータ・セットに対してどの程度有意であるかを示すものである。2つのデータ・セットを比較する場合には、信頼性は第1のデータ・セットのメトリック値のみの関数であり、従って、「事前計算」されている。したがって、一旦メトリック値が事前計算されると、信頼性は既知となる。単一データ値をデータ・セットと比較する場合には、信頼性は、データ・セットのメトリック値と単一データ値のメトリック値との関数である。そのため、信頼性は、もはや事前計算されたものではなく、検定される各々の単一データ値ごとに異なるものとなり得る。
特性20.1、20.2又はフィンガープリントは、1つ又は複数のメトリック値のための論理上の入れものである。技術的には、フィンガープリントは、データ・セット12、14の全てのデータ値を、対応するフィンガープリントを構成する全てのメトリック・アルゴリズムに連続的に通すことで計算される。各特性20.1、20.2は、それ自体のメトリック・アルゴリズム22、24、26、28を用いてメトリック結果を計算する。一旦、全てのデータ値が全てのメトリック・アルゴリズム22、24、26、28によって解析されると、全てのメトリック結果は、シリアル化されて、フィンガープリントのシリアル化形態を表す1つのエンティティにされ、これをメタデータ・リポジトリ内に格納するか、又は解析されたデータ・セット12、14のメタデータに添付することができる。任意のシリアル化形式を用いることができる。好ましい実施形態においてはXML形式を用いることができるが、形式自体は本発明にとって重要ではない。
図3は、ある表の中の姓、住所、郵便番号又は電話の列を各々が表す異なるデータ・セット12、14、16、18のメタデータに添付された、フィンガープリント20.1、20.2、20.3、20.4を示し、図4は、フィンガープリントを本発明の実施形態で用いられる特性として実装するための、UML(統一モデリング言語)モデルを示す。
図3及び図4を参照すると、各データ・セット12、14、16、18に対して、幾つかのメトリック値1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826から成るフィンガープリント20.1、20.2、20.3、20.4が、各々のデータ・セット12、14、16、18について計算されており、対応するメタデータに添付されている。フィンガープリント20.1、20.2、20.3、20.4をデータ・セット12、14、16、18に関連付けることは、メタデータ・モデルをフィンガープリント20.1、20.2、20.3、20.4の概念をサポートするように拡張すること、又はそのメタデータ・モデルが提供することができる汎用注釈機構を使用すること、又は単にデータ・セット名をシリアル化されたフィンガープリント20.1、20.2、20.3、20.4に関連付ける表を使用すること、のいずれかで行うことができる。
図3は、異なるデータ・セット12、14、16、18のフィンガープリント20.1、20.2、20.3、20.4が、異なるメトリック型式を含むことができることを示す。例えば、姓及び住所の列のフィンガープリント20.1、20.2は、異なる文字のバイグラムの出現頻度を計量する「バイグラム・メトリック・アルゴリズム」28を含む。バイグラム・メトリックは、文字を含んで単語を形成する値に対してのみ計算することができるが、それは、「郵便番号」及び「電話」の列には当てはまらない。その理由で、バイグラム・メトリックは、郵便番号及び電話の列については計算されていない。バイグラム・メトリック・アルゴリズム28は、メトリック値1228及び1428を計算する。特性20.1、20.2、20.3、20.4のためのメトリック値1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826を計算するメトリック・アルゴリズム22、24、26、28は、全てのデータ・セット12、14、16、18に対して同じである必要はない。図示された、姓、住所、郵便番号、及び電話の列の全てのフィンガープリント20.1、20.2、20.3、20.4は、「一般統計量メトリック・アルゴリズム」22により計算されるメトリック値1222、1422、1622、1822、「最頻形式メトリック・アルゴリズム」24により計算されるメトリック値1224、1424、1624、1824、及び「最頻単語メトリック・アルゴリズム」26により計算されるメトリック値1226、1426、1626、1826を含む。2つのデータ・セット12、14、16、18が互いに比較されるときには、同じ型式のメトリック値1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826の対のみが比較されることになり、一方のフィンガープリント20.1、20.2、20.3、20.4には存在するが他方のフィンガープリントには存在しないメトリック値1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826は無視されることになる。2つのフィンガープリント20.1、20.2、20.3、20.4が互いに比較可能であるためには、共通する同じ型式の少なくとも1つのメトリック値1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826を有していなければならない。図示された実施形態において、第1のデータ・セット12と第2のデータ・セット14とを比較する場合には、一般統計量メトリック・アルゴリズム22、最頻形式メトリック・アルゴリズム24、最頻単語メトリック・アルゴリズム26、及びバイグラム・メトリック・アルゴリズム28により計算されたメトリック値1222、1224、1226、1228、1422、1424、1426、1428が用いられる。第3のデータ・セット16と第4のデータ・セット18とを比較する場合には、一般統計量メトリック・アルゴリズム22、最頻形式メトリック・アルゴリズム24、及び最頻単語メトリック・アルゴリズム26により計算されたメトリック値1622、1624、1626、1822、1824、1826が用いられる。第1又は第2のデータ・セット12、14と、第3のデータ・セット16又は第4のデータ・セット18とを比較する場合には、一般統計量メトリック・アルゴリズム22、最頻形式メトリック・アルゴリズム24、及び最頻単語メトリック・アルゴリズム26により計算されたメトリック値1222、1224、1226、1422、1424、1426、1622、1624、1626、1822、1824、1826が用いられ、バイグラム・メトリック・アルゴリズム28により計算されたメトリック値1228、1428は無視される。
さらに図3及び図4を参照すると、フィンガープリントの概念は、フィンガープリントを、2つの異なるデータ・セット12、14、16、18の2つのフィンガープリント20.1、20.2、20.3、20.4の間、又は1つのフィンガープリント20.1、20.2、20.3、20.4と単一データ値12’との間の類似性スコアを計算するための2つの方法を定義するクラスとして用いることにより、実装することができる。
フィンガープリント20.1、20.2、20.3、20.4は、抽象メトリック・クラスにより表される1つ又は複数のメトリックを含む。抽象メトリック・クラスのサブクラスにより特殊化された各メトリックは、4つの関数を与える。第1の類似性関数32は、メトリック値1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826と、別のフィンガープリント20.1、20.2、20.3、20.4からの同じ型式タイプの別のメトリック値1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826との間の類似性スコア42を返している。第1の信頼性関数34は、そのメトリックが計算されたデータ・セット12、14、16、18に対するメトリックの信頼性値44を返している。信頼性値44は、0.0と1.0との間の値であり、このメトリックによって返される類似性スコア42が、フィンガープリント20.1、20.2、20.3、20.4を所有するデータ・セット12、14、16、18内に含まれるデータの型式についてどの程度良く信頼することができるかを示す。第2の類似性関数36は、単一データ値が、全データ・セット12、14、16、18について計算されたメトリックにどの程度良く適合するかを示す類似性スコア46を返している。第2の信頼性関数38は、第2の類似性関数36により返される結果の信頼性値48を返している。
類似性関数及び信頼性関数32、34、36、38は、一般に対称ではない。それは、2つのデータ・セット12、14間の類似性を第1のデータ・セット12のメトリック値を参照として用いて計算すると、2つのデータ・セット12、14間の類似性を第2のデータ・セット14のメトリック値を参照として用いて計算した場合とは僅かに異なる値を返すことを意味する。同じことが、信頼性関数34、38についても当てはまる。通常は、参照と、比較されるメトリックとを入れ替えたときに結果が異なったとしても、この差は十分に小さいので、どちらを参照として用いるかは問題にならない。代替法として、第1のデータ・セット12を参照して2つのデータ・セット12、14間の類似性を計算し、次いで第2のデータ・セット14を参照して2つのデータ・セット12、14間の類似性を計算し、次いでこれら2つの結果の平均値を求めてこれを返すことは、計算により時間がかかるがより安全であり得る。説明される実施形態において、2つのデータ・セットを比較するときに用いられる信頼性は参照データ・セットのみの関数なので、第1の信頼性値44は、参照データ・セットとしての第1のデータ・セット12のみに関連する。代替的に、信頼性を両データ・セット12、14のメトリック値に基づいて動的に計算するためのより複雑なアルゴリズムを用いることができる。しかし、検定の際に、参照データ・セットのみを考慮して信頼性を計算することで十分に良好な結果が得られるように思われたので、より複雑なアルゴリズムは正当化されなかった。
さらに、2つのデータ・セット12、14が比較される場合、一方のデータ・セットだけをここで第1のデータ・セット/メトリックと呼ぶ参照データ・セットとして任意に選択し、他方のデータ・セットをここで第2のデータ・セット/メトリックと呼ぶ比較データ・セットとして選択することができる。重みは、参照データ・セットの信頼性値である。より正確な計算は、最初に第1のデータ・セットを参照として結果を計算し、同じ計算を第2のデータ・セットを参照として再び行い、両方の平均として最終結果を返すことであろう。
式(1)及び(2)は、2つのフィンガープリント20.1、20.2、20.3、20.4の間、又はフィンガープリント20.1、20.2、20.3、20.4と単一データ値との間の類似性スコアを、メトリック・アルゴリズム22、24、26、28の結果に基づいて計算するために用いられる例示的な式を示す。
Figure 0005785617
2つのフィンガープリント20.1、20.2、20.3、20.4の間の類似性は、それらが共通して有するメトリックの第1の類似性関数32又は第2の類似性関数36の結果の加重平均として計算される。各メトリックに対して用いられる重みは、対応する信頼性関数34、38によって計算されるそのメトリックの信頼性値である。式(1)において、Similarityは、第1の又は参照データ・セットのフィンガープリントと比較したときの第2のデータ・セットのフィンガープリントの類似性を表し、Confidence(Metrici,dataset1)は、データ・セット1について計算されたメトリックiの信頼性である。Similarity(Metrici,col1,Metrici,col2)は、データ・セット1についてのメトリックiと、データ・セット2についての同じメトリックiとの間の類似性を表す。式(1)内の反復を、両フィンガープリント内に存在するメトリックの全ての対について行う。
1つのデータ・セットのフィンガープリントとデータ値との間の類似性は、同様の手法で、但し、メトリックの第2の類似性関数36及び第2の信頼性関数38を適用することにより計算される。
以下、本発明の好ましい実施形態で用いられる4つの異なるメトリック・アルゴリズム22、24、26、28を説明する。
バイグラム・アルゴリズム28の考え方は、人が読むことができる値を含むデータにおいて、文字の組み合わせの頻度は均等に分布していないという事実に基づくものであり、ここで、値は、単語、名前、又は人間の言語に基づく何らかのもので構成されている。例えば、英語において、文字Eは、テキスト内で文字Zよりもずっと頻繁に使用される。2つの文字の組み合わせを表すバイグラムを調べると、幾つかの組合せは、例えば文字「Q」は英語では殆どの場合に後に文字「U」が続くというように、非常に頻度が高く、その他の幾つかの組み合わせ、例えば文字「Q」の後にもうひとつ文字「Q」が続くことは、起こる可能性が低い。この、全ての可能なバイグラムに関する頻度の表は、対応するデータ・セット12、14により表される領域を代表するものである。英語に基づくフリーテキスト値を含むデータ・セット12、14、例えば住所、人名、会社名などは、英語に特有のバイグラム表を有することになる。ドイツ語の値を含むデータ・セットは、僅かに異なるバイグラム表を有することになる。自然言語に基づかないコードを含むデータ・セットは、完全に異なる表を有することになる。そのようなバイグラム表を計算するために、対応するテキスト値の全ての記号が大文字に変換される。「@、−、*」のような特殊記号及び数字は除去され、その場合、空白は無視されない。次に、2文字長のスライディング・ウィンドウを、残った記号列上で移動させて、全ての可能なバイグラムの行列を生成し、出現した各々のバイグラムについて頻度を数える。全ての内容が処理されたとき、各バイグラムについて発生確率が計算される。
図3において、メトリック値1228及び1428は、各々、姓及び住所の列に関して生成されたそのようなバイグラムの一部を示す。この行列は、以下のように読まれる。即ち、第1行第1列のセルは、バイグラムAAが出現する確率が0%であることを示す。第1行第2列のセルは、バイグラムABについての確率を示す。第2行第1列のセルは、バイグラムBAの確率を示し、以下同様である。
式(3)は、データ・セット12、14の間の類似性スコアを、バイグラム・メトリック・アルゴリズム28の結果に基づいて計算するために用いられる例示的な式を示す。
Figure 0005785617
2つの異なるデータ・セット12、14の2つのバイクラム・メトリック間の類似性を計算するために、2つのデータ・セット12、14についてのバイグラム表1228、1428がロードされる。次に、行列の全ての値が、長い数字シーケンスとして、各行列につき1つの頻度シーケンスとして取得される。次に、これらの2つの頻度系列の間の相関が計算される。相関が正であれば、それが類似性スコアとして返される。相関が負であれば、類似性スコアは0であると見なされる。行列同士が類似しているほど、相関は100%に近づき、従って類似性スコアも100%に近づくことになる。
式(4)は、バイグラム・メトリック・アルゴリズム28の信頼性を計算するために用いられる例示的な式を示す。バイグラム・メトリック・アルゴリズム28は、フリーテキストを含む値を代表するものであるが、バイグラム・パターンにとっては代表する度合いが低く、ランダムに分布するはずの値に対しては役に立たない。好ましい実施形態において、行列内の0を上回る頻度を有するセルの割合が、信頼性として計算される。このようにすると、バイグラム・メトリック・アルゴリズム28は、全てのバイグラムが表現されたフリーテキスト列については強い信頼性を有し、値の数及び多様性が行列全体を埋めるほど十分に高くなかった列については、より低い信頼性を有する。
Figure 0005785617

式中、Metriccol1(row,col)=0であれば、f(Metriccol1(row,col))=0であり、Metriccol1(row,col)>0であれば、f(Metriccol1(row,col))=1である。
バイグラム・メトリックと1つの単一データ値との間の類似性を計算するためには、バイグラム行列を、各列における最大頻度が100%に正規化されるように、正規化しなければならない。式(5)は、正規化のための式を示す。行列内の各セルを、同じ列内で見いだされる最大頻度で除する。
Figure 0005785617
次いで、比較される単一データ値から全てのバイグラムが抽出され、これらのバイグラムの各々についての値を、正規化行列内で探索する。式(6)に従って、単一データ値内で見いだされた全てのバイグラムについて、平均値が計算される。
Figure 0005785617
最後に、式(6)を用いて得られたスコアを、0.4を上回るスコアが1に近い類似性を与えるように変換しなければならない。好ましい実施形態において用いられる変換関数は、式(7)で示される。
Figure 0005785617
代替的に、同じ方法を、モノグラム若しくはトライグラム又は一般にnグラムで用いることができよう。
最頻単語メトリック・アルゴリズム26は、解析されるデータ・セット12、14、16、18の全てのデータ値の中で見いだされる最も頻繁に繰り返される単語のリストを計算する。これは、繰り返し現れる単語を用いるデータ・セット12、14、16、18における類似性を検出するにはかなり効果的なメトリックである。例えば、所番地を含むデータ・セット12、14、16、18は、「ストリート(Street)」、「アベニュー(Avenue)」、「市名」などのような繰り返し現れる単語を有している可能性が高い。人名を含むデータ・セット12、14、16、18は、繰り返し現れる姓及び名を有している可能性が高い。
図5は、最頻単語を計算するためのアルゴリズム26を示す。データ・セット12、14、16、18において見出された各単語の頻度が計算される。最後に、上位N個の値のみが解析用に保持され、稀にしか出現しない値は無視される。分布の幅は、メトリック26がどの程度良く機能するかに関する良い指標であり、従って、信頼性を計算するために用いられる。
式(8)及び(9)は、好ましい実施形態において、この最頻単語メトリック・アルゴリズム26についての類似性及び信頼性を計算するために用いられる式を示す。
Figure 0005785617

式中、cは、定数であり、例えば、
Figure 0005785617

である。
2つの最頻単語メトリック26の間の類似性を計算するために、第1のメトリックにおける上位N個の単語の頻度と、第2のメトリックにおける同じ単語の頻度との間のユークリッド距離が計算される。さらに、その他の全ての単語、即ち、上位N個のリストに属していない単語の頻度が、更なる次元として取得される。距離distを計算するための式は、例えば、式(8)で表される。次に、距離distは、例えば、式(9)で表される変換関数を用いることにより、0.0と1.0との間のスコアに変形される。メトリックの信頼性は、少なくとも1つの単語が、メトリックによって捕捉された上位N個の単語の一部となっている値の、そのメトリックを所有するデータ・セット12、14、16、18における割合である。。式(10)は、最頻単語メトリック26についての信頼性を計算するための式を示す。
Figure 0005785617

式中、値(i)がメトリックの上位N個の最頻単語リスト内に存在しなければ、f(value(i))=0であり、値(i)がメトリックの上位N個の最頻単語リスト内に存在すれば、f(value(i))=1である。
単一データ値と再頻度語メトリックとの間の類似性は、少し異なった手法で計算される。好ましい実施形態において、二値的類似性は、単一データ値の単語がメトリックの上位N個の最頻単語内になければ0.0となり、少なくとも1つの単語がリスト内にあれば1.0となる、そのいずれかである。信頼性は、単一データ値を構成する全ての単語の、上位N個の単語のメトリックにおける頻度を合計することにより計算される。
図6は、最頻形式を計算するためのアルゴリズム24を示す。最頻形式メトリック・アルゴリズム24は、最頻単語メトリック・アルゴリズム26に類似しているが、繰り返し出現する語を捕捉する代わりに、繰り返し出現する形式を捕捉する。解析されるデータ・セット12、14、16、18内の各データ値は、形式マスクに変換され、そこでは例えば、全ての大文字が「A」に変換され、全ての小文字が「a」に変換され、全ての数字が「9」に変換され、その他の全ての記号は変更されないまま残される。例えば、「77019−6813」に対する形式マスクは「99999−9999」になり。「ABC123」に対する形式マスクは「AAA999」なる。
一旦、値がその形式マスクに変換されると、最頻単語メトリック26の場合と類似の技術を用いて、上位N個の最頻形式が計算される。最頻単語メトリック26の場合と同様に、2つの最頻形式メトリック24の間の類似性は、式(11)で表されるユークリッド距離を用い、式(12)で表される変換関数を用いるにことにより、計算される。
Figure 0005785617

式中、cは、定数であり、例えば、
Figure 0005785617

である。
メトリックの信頼性は、最頻形式メトリック24により捕捉された全ての形式の頻度の合計である。式(13)は、最頻形式メトリック24についての信頼性を計算するための式を示す。
Figure 0005785617
単一データ値と最頻形式メトリック24との間の類似性は、ここでもやはり二値的である。したがって、二値的類似性は、単一データ値の形式がメトリック24の上位N個の最頻形式内になければ0.0となり、その形式がリスト内にあれば1.0となる、そのいずれかである。信頼性は、単純に、単一データ値の形式の、メトリックにおける頻度である。
一般統計量メトリック・アルゴリズム22は、解析されるデータ・セット12、14、16、18内に含まれるデータ値についての統計量を収集することに関する。好ましい実施形態において収集される統計量は、データ値の平均長及びその標準偏差、各データ値内の単語の平均個数及びその標準偏差、データ値内の文字の平均割合及びその標準偏差、並びにデータ値内の数字の平均割合及びその標準偏差である。したがって、2つの一般統計量メトリックの間の類似性は、上で挙げた4つの統計量の各々について、2つの正規分布を比較することと同じである。
図7乃至図10は各々、このプロセスをグラフで示す。各々の一般統計量メトリック22は、値の長さ(記号の数)(図7参照)、単語の数(図8参照)、文字の割合(図9参照)、及び数字の割合(図10参照)についての正規分布を表す4つのガウス曲線としてグラフで表示することができる。別のデータ・セット由来の別のメトリックの4つの分布を同じグラフ上に重ねると、各次元についての類似性は、この場合は実線の曲線が第1の一般統計量メトリックを表し、破線の曲線が第2の一般統計量メトリックを表す2つの曲線間の共通の面積を計量することにより、計量することができる。図7を参照すると、比較された2つのデータ・セットは、記号の数(データ値の長さ)に関して38.15%の類似性を有する。図8を参照すると、比較された2つのデータ・セットは、単語の数に関して19.57%の類似性を有する。図9を参照すると、比較された2つのデータ・セットは、文字の割合に関して88.28%の類似性を有する。図10を参照すると、比較された2つのデータ・セットは、数字の割合に関して81.90%の類似性を有する。これらの類似性スコアの平均を計算することにより、2つのデータ・セット間の全類似性スコアを得る。
単一データ値と一般統計量メトリック22との間の類似性の計算は、同じ手法で行われる。しかし、2つの正規分布を互いに比較する代わりに、図11乃至図14において示されるように、正規分布と単一データ値とが比較される。図11を参照すると、データ・セット及び単一データ値は、記号の数(データ値の長さ)について、94.1%の類似性を有する。図12を参照すると、データ・セット及び単一データ値は、単語の数について82.6%の類似性を有する。図13を参照すると、データ・セット及び単一データ値は、文字の割合について90%の類似性を有する。図14を参照すると、データ・セット及び単一データ値は、数字の割合について85%の類似性を有する。これらの類似性スコアの平均を計算することにより、データ・セットと単一データ値との間の全類似性スコアを得る。
データ・セットを取り扱うための本発明の方法は、全体がソフトウェアの実施形態として、又はハードウェア要素とソフトウェア要素の両方を含む実施形態として、実装することができる。1つの好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアとして実装される。
さらに、本発明は、コンピュータ若しくはいずれかの命令実行システムによって使用されるか又はこれらと関連して使用されるプログラム・コードを提供するコンピュータ使用可能媒体又はコンピュータ可読媒体からアクセス可能なコンピュータ・プログラム製品の形態を取ることができる。この説明の目的に関して、コンピュータ使用可能媒体又はコンピュータ可読媒体は、命令実行システム、装置若しくはデバイスによって使用されるか又はこれらと関連して使用されるためのプログラムを収容し、格納し、通信し、伝搬し、又は搬送することができるいずれかの装置とすることができる。
媒体は、電子、磁気、光学、電磁気、赤外線若しくは半導体のシステム(又は装置若しくはデバイス)、又は伝搬媒体とすることができる。コンピュータ可読媒体の例としては、半導体又は固体メモリ、磁気テープ、取り外し可能コンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、剛性磁気ディスク及び光ディスクが挙げられる。現在の光ディスクの例として、コンパクトディスク−読み出し専用メモリ(CD−ROM)、コンパクトディスク−読み出し/書き込み(CD−R/W)及びDVDが挙げられる。プログラム・コードを格納し、及び/又は実行するのに適したデータ処理システムは、システム・バスを通じてメモリ要素に直接又は間接に結合される少なくとも1つのプロセッサを含む。メモリ要素は、プログラム・コードの実際の実行中に用いられるローカル・メモリと、大容量記憶デバイスと、実行中に大容量記憶デバイスからコードを取り出さなければならない回数を減らすために少なくとも幾つかのプログラム・コードの一時的な記憶場所を提供するキャッシュ・メモリとを含むことができる。
入出力デバイス即ちI/Oデバイス(キーボード、ディスプレイ、ポインティング・デバイスなどを含むがこれらに限定されない)は、システムに、直接的に、又は介在するI/Oコントローラを通じて結合することができる。
ネットワーク・アダプタをシステムに結合して、データ処理システムを、介在する私設ネットワーク又は公衆ネットワークを通じて他のデータ処理システム又は遠隔のプリンタ若しくは記憶装置に結合できるようにすることもできる。モデム、ケーブル・モデム及びイーサネット・カードは、現在利用可能なネットワーク・アダプタのタイプのうちのごく一部である。
10:データ処理システム
12、14、16、18:データ・セット
12’:単一データ値
20.1、20.2、20.3、20.4:特性(フィンガープリント)
22:一般統計量メトリック・アルゴリズム
24:最頻形式メトリック・アルゴリズム
26:最頻単語メトリック・アルゴリズム
28:バイグラム・メトリック・アルゴリズム
30:比較ユニット
32:第1の類似性関数
34:第1の信頼性関数
36:第2の類似性関数
38:第2の信頼性関数
40:比較結果
42:第1の類似性値
44:第1の信頼性値
46:第2の類似性値
48:第2の信頼性値
1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1822、1824、1826:メトリック値
12’22、12’24、12’26、12’28:単一データ値のメトリック値

Claims (15)

  1. データ・セットを取り扱う方法であって、
    コンピュータが、第1のデータ・セット(12、14、16、18)に関連付けられた第1の特性(20.1、20.2、20.3、20.4)、単一データ値(12’)、及び、第2のデータ・セット(12、14、16、18)に関連付けられた第2の特性(20.1、20.2、20.3、20.4)を提供するステップであって、前記提供された特性(20.1、20.2、20.3、20.4)が、前記第1のデータ・セット(12、14、16、18)、前記第2のデータ・セット(12、14、16、18)及び前記単一データ値(12’)の実行可能な比較を可能にする、ステップと、
    前記コンピュータが、
    ・前記第1及び第2の特性に基づく、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との類似性、及び
    ・前記第1の特性及び前記単一データ値(12’)に基づく、前記第1のデータ・セット(12、14、16、18)と前記単一データ値(12’)との類似性、
    のうちの少なくとも1つと、
    ・前記第1の特性に基づく、前記第1の特性が前記第1のデータ・セット(12、14、16、18)の性質をどの程度良く反映しているかを示す信頼性、及び
    ・前記第1の特性及び前記単一データ値(12’)に基づく、前記第1のデータ・セットと前記単一データ値(12’)との前記類似性が前記単一データ値の性質をどの程度良く反映しているかを示す信頼性
    のうちの少なくとも1つを計算するステップと、
    を含む、方法。
  2. 前記第1の特性(20.1、20.2、20.3、20.4)は、メトリック値の集合(1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)を含み、
    前記メトリック値の集合(1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)内のそれぞれのメトリック値の各々は、前記第1のデータ・セットに対してそれぞれのメトリック・アルゴリズム(22、24、26、28)を適用することにより計算され、
    前記各々のメトリック・アルゴリズム(22、24、26、28)は、
    ・前記メトリック値の集合内のそれぞれのメトリック値、並びに、前記単一データ値に適用された同じメトリック・アルゴリズムの値及び前記第2のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも1つの類似性値(42、46)と、
    ・前記メトリック値の集合内のそれぞれのメトリック値、並びに、前記単一データ値に適用された同じメトリック・アルゴリズムの値及び前記第2のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも1つの信頼性値(44、48)と、
    を提供する、請求項1に記載の方法。
  3. 前記各々のメトリック・アルゴリズム(22、24、26、28)が、
    第1の類似性値(42)を、前記第1のデータ・セット(12、14、16、18)の前記それぞれのメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)、及び前記第2のデータ・セット(12、14、16、18)に適用された同じメトリック・アルゴリズム(22、24、26、28)のメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)に基づいて計算するための第1の類似性関数(32)と、
    前記メトリック・アルゴリズム(22、24、26、28)が前記第1のデータ・セット(12、14、16、18)の性質をどの程度良く反映しているかを示す第1の信頼性値(44)を、前記第1のデータ・セット(12、14、16、18)に基づいて計算するための第1の信頼性関数(34)と、
    を少なくとも用いる、請求項2に記載の方法。
  4. 前記各々のメトリック・アルゴリズム(22、24、26、28)が、
    第2の類似性値(46)を、前記第1のデータ・セット(12、14、16、18)の前記それぞれのメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)、及び前記単一データ値(12’)に適用された同じメトリック・アルゴリズム(22、24、26、28)のメトリック値(1222、1224、1226、1228、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)に基づいて計算するための第2の類似性関数(36)と、
    前記メトリック・アルゴリズム(22、24、26、28)が前記単一データ値(12’)の性質をどの程度良く良好に反映しているかを示す第2の信頼性値(48)を、前記第1のデータ・セット(12、14、16、18)の前記それぞれのメトリック値(1222、1224、1226、1228、12’22、12’24、12’26、12’28、1422、1424、1426、1428、1622、1624、1626、1628、1822、1824、1826、1828)に基づいて計算するための第2の信頼性関数(38)と、
    を、少なくとも用いる、請求項3に記載の方法。
  5. 前記コンピュータが、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との前記類似性、及び、前記第1のデータ・セットと前記単一データ値(12’)との前記類似性のうちの少なくとも一方を決定するために、前記少なくとも1つのメトリック・アルゴリズム(22、24、26、28)により提供される類似性値(42、46)の加重平均を計算するステップと、
    前記コンピュータが、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との前記類似性を決定するための重みとして、少なくとも前記第1の信頼性値(44)を用いるステップと、
    前記コンピュータが、前記第1のデータ・セット(12、14、16、18)と前記単一データ値(12’)との前記類似性を決定するための重みとして、少なくとも前記第2の信頼性値(48)を用いるステップと、
    を含む、請求項4に記載の方法。
  6. 前記第1の特性に関連付けられた前記メトリック・アルゴリズム(22、24、26、28)は、一般統計量メトリック・アルゴリズム(22)、最頻形式メトリック・アルゴリズム(24)、最頻単語メトリック・アルゴリズム(26)、nグラム・メトリック・アルゴリズム(28)、及びニューラル・ネットワークに基づくメトリック・アルゴリズムのうちの少なくとも1つを含む、請求項5に記載の方法。
  7. 前記第1のデータ・セット(12、14、16、18)に関連付けられた前記第1の特性(20.1、20.2、20.3、20.4)と前記第2のデータ・セット(12、14、16、18)に関連付けられた前記第2の特性とが異なるメトリック・アルゴリズム(22、24、26、28)を含んでいる場合に、共通のメトリック・アルゴリズム(22、24、26、28)及び前記それぞれのメトリック値が類似性の計算に用いられる、請求項6に記載の方法。
  8. 前記コンピュータが、前記第1の特性(20.1、20.2、20.3、20.4)をメタデータ・リポジトリ内に格納することを含む、請求項7に記載の方法。
  9. 前記コンピュータが、前記第1及び第2の特性(20.1、20.2、20.3、20.4)に基づいて、前記第1のデータ・セット(12、14、16、18)及び前記第2のデータ・セット(12、14、16、18)のうちの少なくとも一方の領域を決定することを含む、請求項8に記載の方法。
  10. 前記コンピュータが、前記第1のデータ・セットの領域に関する情報を受け取ることと、前記第2のデータ・セット(12、14、16、18)が同じ領域に属するか否かを、前記決定された類似性及び前記決定された信頼性のうちの少なくとも一方に基づいて決定することとを含む、請求項9に記載の方法。
  11. 前記コンピュータが、前記第2の類似性値(46)が所定の条件を満たさない場合に、前記第2の類似性値(46)に基づいて、前記単一データ値(12’)が前記第1のデータ・セット(12、14、16、18)の前記領域と矛盾すると決定するステップ、及び、
    前記コンピュータが、前記第2の類似性値(46)が所定の条件を満たす場合に、前記第2の類似性値(46)に基づいて、前記単一データ値(12’)が前記第1のデータ・セット(12、14、16、18)の前記領域と矛盾しないと決定するステップ
    のうちの少なくとも一方を含む、請求項10に記載の方法。
  12. 前記コンピュータが、前記第1のデータ・セットを、前記第1の特性(20.1、20.2、20.3、20.4)に基づいて、データ変換におけるマッピング候補として検出することを含む、請求項1乃至請求項11のいずれか1項に記載の方法。
  13. データ・セットを取り扱うための装置であって、
    第1のデータ・セット(12、14、16、18)に関連付けられた第1の特性(20.1、20.2、20.3、20.4)、単一データ値(12’)、及び、第2のデータ・セット(12、14、16、18)に関連付けられた第2の特性(20.1、20.2、20.3、20.4)を提供する手段であって、前記提供された特性が、前記第1のデータ・セット(12、14、16、18)、前記第2のデータ・セット(12、14、16、18)及び前記単一データ値(12’)の実行可能な比較を可能にする、手段(20)と、
    ・前記第1及び第2の特性に基づく、前記第1のデータ・セット(12、14、16、18)と前記第2のデータ・セット(12、14、16、18)との類似性、及び
    ・前記第1の特性及び前記単一データ値に基づく、前記第1のデータ・セット(12、14、16、18)と前記単一データ値(12’)との類似性、
    のうちの少なくとも1つと、
    ・前記第1の特性に基づく、前記第1の特性が前記第1のデータ・セットの性質をどの程度良く反映しているかを示す信頼性、及び
    ・前記第1の特性及び前記単一データ値に基づく、前記第1のデータ・セットと前記単一データ値(12’)との前記類似性が前記単一データ値の性質をどの程度良く反映しているかを示す信頼性
    のうちの少なくとも1つを計算するための手段(30)と、
    を含む、装置
  14. 請求項1乃至請求項12のいずれか1項に記載の方法の各ステップをコンピュータに実行させる、データ処理プログラム。
  15. 請求項14記載のデータ処理プログラムをコンピュータ可読媒体に記録した、記録媒体。
JP2013527511A 2010-09-14 2011-07-14 データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 Active JP5785617B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10176677.2 2010-09-14
EP10176677 2010-09-14
PCT/EP2011/062074 WO2012034733A2 (en) 2010-09-14 2011-07-14 Method and arrangement for handling data sets, data processing program and computer program product

Publications (2)

Publication Number Publication Date
JP2013541754A JP2013541754A (ja) 2013-11-14
JP5785617B2 true JP5785617B2 (ja) 2015-09-30

Family

ID=44628981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013527511A Active JP5785617B2 (ja) 2010-09-14 2011-07-14 データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品

Country Status (5)

Country Link
US (1) US8666998B2 (ja)
EP (1) EP2616960A2 (ja)
JP (1) JP5785617B2 (ja)
CN (1) CN103080924B (ja)
WO (1) WO2012034733A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093675A1 (ko) * 2017-11-10 2019-05-16 (주) 위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478705B2 (en) 2010-01-15 2013-07-02 International Business Machines Corporation Portable data management using rule definitions
US8949166B2 (en) 2010-12-16 2015-02-03 International Business Machines Corporation Creating and processing a data rule for data quality
US8898104B2 (en) 2011-07-26 2014-11-25 International Business Machines Corporation Auto-mapping between source and target models using statistical and ontology techniques
US8484170B2 (en) 2011-09-19 2013-07-09 International Business Machines Corporation Scalable deduplication system with small blocks
WO2014028860A2 (en) * 2012-08-17 2014-02-20 Opera Solutions, Llc System and method for matching data using probabilistic modeling techniques
US8805865B2 (en) * 2012-10-15 2014-08-12 Juked, Inc. Efficient matching of data
US9558230B2 (en) 2013-02-12 2017-01-31 International Business Machines Corporation Data quality assessment
US10332010B2 (en) * 2013-02-19 2019-06-25 Business Objects Software Ltd. System and method for automatically suggesting rules for data stored in a table
KR20140109729A (ko) * 2013-03-06 2014-09-16 한국전자통신연구원 의미기반 검색 시스템 및 이의 검색방법
US20150089403A1 (en) * 2013-09-20 2015-03-26 Jin You ZHU Dynamic generation of user interface
CN104252515B (zh) * 2013-12-04 2017-06-16 深圳市华傲数据技术有限公司 一种数据生成方法和装置
US9542456B1 (en) * 2013-12-31 2017-01-10 Emc Corporation Automated name standardization for big data
US10503709B2 (en) * 2014-03-11 2019-12-10 Sap Se Data content identification
GB2524074A (en) 2014-03-14 2015-09-16 Ibm Processing data sets in a big data repository
US9477713B2 (en) * 2014-06-06 2016-10-25 Netflix, Inc. Selecting and ordering groups of titles
US10387389B2 (en) * 2014-09-30 2019-08-20 International Business Machines Corporation Data de-duplication
CN105573971B (zh) * 2014-10-10 2018-09-25 富士通株式会社 表格重构装置和方法
EP3029607A1 (en) * 2014-12-05 2016-06-08 PLANET AI GmbH Method for text recognition and computer program product
US9928284B2 (en) * 2014-12-31 2018-03-27 Zephyr Health, Inc. File recognition system and method
US10445897B2 (en) * 2015-07-09 2019-10-15 Canon Kabushiki Kaisha Device for acquiring information relating to position displacement of multiple image data sets, method, and program
US20170011314A1 (en) * 2015-07-10 2017-01-12 International Business Machines Corporation Semi-Additive Data Modeling
US10055430B2 (en) 2015-10-14 2018-08-21 International Business Machines Corporation Method for classifying an unmanaged dataset
JP7100422B2 (ja) 2016-10-21 2022-07-13 富士通株式会社 データプロパティ認識のための装置、プログラム、及び方法
US10635693B2 (en) 2016-11-11 2020-04-28 International Business Machines Corporation Efficiently finding potential duplicate values in data
US10585864B2 (en) 2016-11-11 2020-03-10 International Business Machines Corporation Computing the need for standardization of a set of values
EP3428813A1 (en) * 2017-07-10 2019-01-16 Informatica LLC Method, apparatus, and computer-readable medium for determining a data domain of a data object
US10594817B2 (en) * 2017-10-04 2020-03-17 International Business Machines Corporation Cognitive device-to-device interaction and human-device interaction based on social networks
US11263341B1 (en) * 2017-10-11 2022-03-01 Snap Inc. Identifying personally identifiable information within an unstructured data store
US20190130027A1 (en) 2017-11-02 2019-05-02 International Business Machines Corporation Data classification
US11397855B2 (en) * 2017-12-12 2022-07-26 International Business Machines Corporation Data standardization rules generation
US11106820B2 (en) 2018-03-19 2021-08-31 International Business Machines Corporation Data anonymization
US11474978B2 (en) * 2018-07-06 2022-10-18 Capital One Services, Llc Systems and methods for a data search engine based on data profiles
US20200074104A1 (en) * 2018-08-28 2020-03-05 Ca, Inc. Controlling access to data in a database based on density of sensitive data in the database
US11200215B2 (en) * 2020-01-30 2021-12-14 International Business Machines Corporation Data quality evaluation
US11455321B2 (en) 2020-03-19 2022-09-27 International Business Machines Corporation Deep data classification using governance and machine learning
US11500886B2 (en) 2020-12-11 2022-11-15 International Business Machines Corporation Finding locations of tabular data across systems
US11886468B2 (en) * 2021-12-03 2024-01-30 International Business Machines Corporation Fingerprint-based data classification
US20230206669A1 (en) * 2021-12-28 2023-06-29 Snap Inc. On-device two step approximate string matching

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5315709A (en) 1990-12-03 1994-05-24 Bachman Information Systems, Inc. Method and apparatus for transforming objects in data models
EP0513653A2 (en) 1991-05-10 1992-11-19 Siemens Aktiengesellschaft Method for estimating similarity function coefficients from object classification data
US5555346A (en) 1991-10-04 1996-09-10 Beyond Corporated Event-driven rule-based messaging system
US5283856A (en) 1991-10-04 1994-02-01 Beyond, Inc. Event-driven rule-based messaging system
JP3175849B2 (ja) 1991-10-07 2001-06-11 株式会社日立製作所 電子秘書システム
US5392390A (en) 1992-04-10 1995-02-21 Intellilink Corp. Method for mapping, translating, and dynamically reconciling data between disparate computer platforms
US5555388A (en) 1992-08-20 1996-09-10 Borland International, Inc. Multi-user system and methods providing improved file management by reading
US6963920B1 (en) 1993-11-19 2005-11-08 Rose Blush Software Llc Intellectual asset protocol for defining data exchange rules and formats for universal intellectual asset documents, and systems, methods, and computer program products related to same
US5684990A (en) 1995-01-11 1997-11-04 Puma Technology, Inc. Synchronization of disparate databases
US5729665A (en) 1995-01-18 1998-03-17 Varis Corporation Method of utilizing variable data fields with a page description language
US6029160A (en) 1995-05-24 2000-02-22 International Business Machines Corporation Method and means for linking a database system with a system for filing data
US5761671A (en) 1996-10-25 1998-06-02 International Business Machines Corporation Method for interfacing queryable datestore persistent objects to non-relational, non-object-oriented datastores
US6044381A (en) 1997-09-11 2000-03-28 Puma Technology, Inc. Using distributed history files in synchronizing databases
US5943676A (en) 1996-11-13 1999-08-24 Puma Technology, Inc. Synchronization of recurring records in incompatible databases
US5966717A (en) 1996-12-20 1999-10-12 Apple Computer, Inc. Methods for importing data between database management programs
US6301584B1 (en) 1997-08-21 2001-10-09 Home Information Services, Inc. System and method for retrieving entities and integrating data
US6230157B1 (en) 1997-11-25 2001-05-08 International Business Machines Corporation Flattening complex data structures in Java/Javascript objects
US6076090A (en) 1997-11-26 2000-06-13 International Business Machines Corporation Default schema mapping
US6279008B1 (en) 1998-06-29 2001-08-21 Sun Microsystems, Inc. Integrated graphical user interface method and apparatus for mapping between objects and databases
US6385618B1 (en) 1997-12-22 2002-05-07 Sun Microsystems, Inc. Integrating both modifications to an object model and modifications to a database into source code by an object-relational mapping tool
US6216131B1 (en) 1998-02-06 2001-04-10 Starfish Software, Inc. Methods for mapping data fields from one data set to another in a data processing environment
US6154748A (en) 1998-04-07 2000-11-28 International Business Machines Corporation Method for visually mapping data between different record formats
US6260187B1 (en) 1998-08-20 2001-07-10 Wily Technology, Inc. System for modifying object oriented code
US7197741B1 (en) 1999-04-14 2007-03-27 Adc Telecommunications, Inc. Interface for an enterprise resource planning program
US6460048B1 (en) 1999-05-13 2002-10-01 International Business Machines Corporation Method, system, and program for managing file names during the reorganization of a database object
US6408302B1 (en) 1999-06-28 2002-06-18 Davox Corporation System and method of mapping database fields to a knowledge base using a graphical user interface
US6539391B1 (en) * 1999-08-13 2003-03-25 At&T Corp. Method and system for squashing a large data set
JP3938872B2 (ja) 2001-02-02 2007-06-27 松下電器産業株式会社 データ分類装置および物体認識装置
US20020143818A1 (en) 2001-03-30 2002-10-03 Roberts Elizabeth A. System for generating a structured document
US7043492B1 (en) 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
US6947947B2 (en) 2001-08-17 2005-09-20 Universal Business Matrix Llc Method for adding metadata to data
US7136852B1 (en) * 2001-11-27 2006-11-14 Ncr Corp. Case-based reasoning similarity metrics implementation using user defined functions
US7080088B1 (en) 2002-01-30 2006-07-18 Oracle International Corporation Automatic reconciliation of bindable objects
US20070198910A1 (en) 2002-03-26 2007-08-23 Aatrix Software, Inc. Method and apparatus for creating and filing forms
US7200619B2 (en) 2002-05-31 2007-04-03 International Business Machines Corporation Method and process to optimize correlation of replicated with extracted data from disparate data sources
AU2003281390A1 (en) 2002-07-09 2004-01-23 Koninklijke Philips Electronics N.V. Method and apparatus for classification of a data object in a database
US7039898B2 (en) 2002-07-12 2006-05-02 Netspective Communications, Llc Computer system for performing reusable software application development from a set of declarative executable specifications
US20040083199A1 (en) 2002-08-07 2004-04-29 Govindugari Diwakar R. Method and architecture for data transformation, normalization, profiling, cleansing and validation
US7069269B2 (en) 2002-12-03 2006-06-27 International Business Machines Corporation Method, system and program product for mapping data fields between a data source and a data target
US7779345B2 (en) * 2003-07-30 2010-08-17 Aol Inc. Reverse mapping method and apparatus for form filling
US7739223B2 (en) 2003-08-29 2010-06-15 Microsoft Corporation Mapping architecture for arbitrary data models
US7506307B2 (en) 2003-10-24 2009-03-17 Microsoft Corporation Rules definition language
US7908548B2 (en) 2003-10-24 2011-03-15 Oracle International Corporation User interface for establishing mappings from internal metadata to external metadata
US20050131771A1 (en) * 2003-12-15 2005-06-16 Steven Tischer System and method for generating data sets associated with an entity
US7921110B1 (en) * 2003-12-23 2011-04-05 Netapp, Inc. System and method for comparing data sets
US7617531B1 (en) * 2004-02-18 2009-11-10 Citrix Systems, Inc. Inferencing data types of message components
US7870046B2 (en) 2004-03-04 2011-01-11 Cae Solutions Corporation System, apparatus and method for standardized financial reporting
US8359336B2 (en) 2004-05-14 2013-01-22 Oracle International Corporation Interpreting remote objects at a local site
US7870091B2 (en) 2004-06-18 2011-01-11 Sap Ag Methods and systems for receiving data, selecting a condition table, selecting a ruleset based on the condition table, and determining and applying rules to data
JP2006099236A (ja) * 2004-09-28 2006-04-13 Toshiba Corp 分類支援装置、分類支援方法及び分類支援プログラム
US7756882B2 (en) 2004-10-01 2010-07-13 Microsoft Corporation Method and apparatus for elegant mapping between data models
US20090019358A1 (en) 2005-02-11 2009-01-15 Rivet Software, Inc. A Delaware Corporation Extensible business reporting language (xbrl) enabler for business documents
US7536409B2 (en) 2005-02-15 2009-05-19 International Business Machines Corporation Having a single set of object relational mappings across different instances of the same schemas
US7472346B2 (en) 2005-04-08 2008-12-30 International Business Machines Corporation Multidimensional XBRL engine
US20060242181A1 (en) 2005-04-22 2006-10-26 Business Objects Apparatus and method for transforming XBRL data into database schema
US20070112827A1 (en) 2005-11-10 2007-05-17 International Business Machines Corporation Abstract rule sets
JP2007164591A (ja) 2005-12-15 2007-06-28 Hitachi Ltd 財務情報の分析支援方法及びシステム
US7657506B2 (en) 2006-01-03 2010-02-02 Microsoft International Holdings B.V. Methods and apparatus for automated matching and classification of data
JP4889347B2 (ja) 2006-04-03 2012-03-07 株式会社エヌ・ティ・ティ・ドコモ コンテンツ配信ルール作成システム及びコンテンツ配信ルール作成方法
US20080201172A1 (en) 2006-04-25 2008-08-21 Mcnamar Richard T Method, system and computer software for using an xbrl medical record for diagnosis, treatment, and insurance coverage
US20090030754A1 (en) 2006-04-25 2009-01-29 Mcnamar Richard Timothy Methods, systems and computer software utilizing xbrl to identify, capture, array, manage, transmit and display documents and data in litigation preparation, trial and regulatory filings and regulatory compliance
CN101578600A (zh) * 2006-05-02 2009-11-11 皇家飞利浦电子股份有限公司 用于将一个用户的分类标签与由另一个用户定义的分类标签相关联的系统和方法
US8001607B2 (en) 2006-09-27 2011-08-16 Direct Computer Resources, Inc. System and method for obfuscation of data across an enterprise
US7814045B2 (en) 2006-10-04 2010-10-12 Sap Ag Semantical partitioning of data
US7836004B2 (en) 2006-12-11 2010-11-16 International Business Machines Corporation Using data mining algorithms including association rules and tree classifications to discover data rules
JP2008204444A (ja) 2007-01-23 2008-09-04 Just Syst Corp データ処理装置、データ処理方法及び検索装置
JP4902863B2 (ja) * 2007-01-26 2012-03-21 三菱電機株式会社 テーブル分類装置
US8122045B2 (en) * 2007-02-27 2012-02-21 International Business Machines Corporation Method for mapping a data source to a data target
US20080319983A1 (en) * 2007-04-20 2008-12-25 Robert Meadows Method and apparatus for identifying and resolving conflicting data records
US8166000B2 (en) 2007-06-27 2012-04-24 International Business Machines Corporation Using a data mining algorithm to generate format rules used to validate data sets
US8171001B2 (en) 2007-06-27 2012-05-01 International Business Machines Corporation Using a data mining algorithm to generate rules used to validate a selected region of a predicted column
US8176003B2 (en) 2007-06-29 2012-05-08 Microsoft Corporation Automatic designation of XBRL taxonomy tags
US8401987B2 (en) 2007-07-17 2013-03-19 International Business Machines Corporation Managing validation models and rules to apply to data sets
US8103704B2 (en) 2007-07-31 2012-01-24 ePrentise, LLC Method for database consolidation and database separation
US7797289B2 (en) 2007-09-05 2010-09-14 Oracle International Corporation Method and apparatus for automatically executing rules in enterprise systems
US8266168B2 (en) * 2008-04-24 2012-09-11 Lexisnexis Risk & Information Analytics Group Inc. Database systems and methods for linking records and entity representations with sufficiently high confidence
US20090307240A1 (en) * 2008-06-06 2009-12-10 International Business Machines Corporation Method and system for generating analogous fictional data from non-fictional data
US9535959B2 (en) * 2008-11-21 2017-01-03 Li Sun Method and apparatus for reconciliation of multiple sets of data
US8843487B2 (en) 2009-08-18 2014-09-23 Black Oak Partners, Llc Process and method for data assurance management by applying data assurance metrics
CN101702172A (zh) * 2009-11-10 2010-05-05 大连理工大学 一种基于类-属性关系依赖度的数据离散化方法
US8478705B2 (en) 2010-01-15 2013-07-02 International Business Machines Corporation Portable data management using rule definitions
US8612164B2 (en) * 2010-02-10 2013-12-17 Chevron U.S.A. Inc. Method of maintaining a pipeline
US8620930B2 (en) * 2010-03-11 2013-12-31 Yahoo! Inc. Method and system for determining similarity score
US10209967B2 (en) * 2010-10-18 2019-02-19 Infosys Technologies Ltd. System and method for detecting preventative maintenance operations in computer source code
US8180811B2 (en) 2010-10-19 2012-05-15 Symantec Corporation Identifying unreferenced file system components
US8949166B2 (en) 2010-12-16 2015-02-03 International Business Machines Corporation Creating and processing a data rule for data quality
US8515962B2 (en) 2011-03-30 2013-08-20 Sap Ag Phased importing of objects
US10013439B2 (en) 2011-06-27 2018-07-03 International Business Machines Corporation Automatic generation of instantiation rules to determine quality of data migration
US8898104B2 (en) 2011-07-26 2014-11-25 International Business Machines Corporation Auto-mapping between source and target models using statistical and ontology techniques

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093675A1 (ko) * 2017-11-10 2019-05-16 (주) 위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법
KR20190053616A (ko) * 2017-11-10 2019-05-20 (주)위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법
KR102033151B1 (ko) 2017-11-10 2019-10-16 (주)위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법

Also Published As

Publication number Publication date
WO2012034733A2 (en) 2012-03-22
JP2013541754A (ja) 2013-11-14
WO2012034733A3 (en) 2012-11-08
EP2616960A2 (en) 2013-07-24
CN103080924A (zh) 2013-05-01
US8666998B2 (en) 2014-03-04
US20120066214A1 (en) 2012-03-15
CN103080924B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
JP5785617B2 (ja) データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
US8122045B2 (en) Method for mapping a data source to a data target
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
US10452627B2 (en) Column weight calculation for data deduplication
Qahtan et al. FAHES: A robust disguised missing values detector
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
Ambert et al. K-information gain scaled nearest neighbors: a novel approach to classifying protein-protein interaction-related documents
US11557141B2 (en) Text document categorization using rules and document fingerprints
US8650180B2 (en) Efficient optimization over uncertain data
CN112181490A (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
US20230023636A1 (en) Methods and systems for preparing unstructured data for statistical analysis using electronic characters
Trushkowsky et al. Getting it all from the crowd
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置
US8359329B2 (en) Method, computer apparatus and computer program for identifying unusual combinations of values in data
CN112215006A (zh) 机构命名实体归一化方法和系统
US20230359826A1 (en) Computer-implemented system and method to perform natural language processing entity research and resolution
US20230046539A1 (en) Method and system to align quantitative and qualitative statistical information in documents
CN113807429B (zh) 企业的分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150724

R150 Certificate of patent or registration of utility model

Ref document number: 5785617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150