JP5785617B2

JP5785617B2 - データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品

Info

Publication number: JP5785617B2
Application number: JP2013527511A
Authority: JP
Inventors: セイレット、ヤニック; オーバーホーファー、マーティン; サイフェルト、ジェンズ; ネルケ、セバスチャン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-14
Filing date: 2011-07-14
Publication date: 2015-09-30
Anticipated expiration: 2031-07-14
Also published as: WO2012034733A2; JP2013541754A; WO2012034733A3; EP2616960A2; CN103080924A; US8666998B2; US20120066214A1; CN103080924B

Description

本発明は、一般に、データ管理の分野に関し、より具体的には、データ・セットを取り扱うための方法及び構成に関する。さらに具体的には、本発明は、データ・セットを取り扱うためのデータ処理プログラム及びコンピュータ・プログラム製品に関する。

データ統合プロジェクトにおける課題は常に、理解することが必要とされるデータ・ソースの量である。企業の情報技術（ＩＴ）アプリケーションは通常、数千個もの表の使用を伴い、これらの表の各々が数百もの列を含む。これらの列の各々の意味及びセマンティックは、文書化されていない場合が多く、統合作業を開始することができるようになる前にデータを理解することは、単調ではあるが不可欠なタスクである。

このタスクを容易にするために、ＩＢＭＩｎｆｏＳｐｈｅｒｅＩｎｆｏｒｍａｔｉｏｎＡｎａｌｙｚｅｒのような、ユーザがデータ・ソースを理解して文書化することを、これらのソースに含まれたデータを直接見て調べることによって支援するためのデータ理解ツールが考案されている。

このようなツールに共通する特徴は、解析される各列について、列の濃度、最小／最大値、最頻値などの一般統計量を計算すること、単一の列内にどのような異なる値が含まれているのか、そしてそれら異なる値がどのような頻度であるかをユーザに示す値分布、その列の値がどのような異なる形式を使用しているか（例えば、ＺＩＰコードが、その事例の６０％では５桁の値として表され、事例の４０％では５桁の値に４桁の値が続く形で表されていること）をユーザに示す形式解析、データベースのメタデータ内で定義されたその列のデータ型とは独立して、その列の値が実際にはどのような型式を使用しているか（例えば、記号ベースの列が、記号列としてコード化された数値のみを含み得ること）をユーザに示す推論された型式、及び、例えばその列がフリーテキスト、数字又はコードを含んでいるというような基本的なデータ分類である。

上記のＩｎｆｏｒｍａｔｉｏｎＡｎａｌｙｚｅｒのような高度なデータ・プロファイリング・ツールは、さらに、列のデータから特定の領域（ドメイン）を検出する専用アルゴリズムの使用を可能にする。例えば、正規表現又は値の辞書を使用することにより、そのようなアルゴリズムは、ある列が、ＺＩＰコード、米国内住所、個人名、電子メールアドレス、電話番号などを含んでいることを検出することが可能であり得る。

列をその列が含む値に基づいて分類するこの能力は、暗号化された物理ソースをセマンティック情報と共に文書化し、ユーザが良く理解できるビジネス用語又は論理モデルへとこれをマッピングすることを容易にするので、重要である。しかしながら、技術的現状において、データの分類に用いられるアルゴリズムはその領域独自のものである。米国内住所、人名などのような古典的な領域については、そのまますぐ使える専用アルゴリズムが供給される。しかしながら、製品参照、企業コード、チケット・レポートなどのような会社独自の領域、又は、例えばベルギー国内の郵便番号のような一般的でない領域については、その特定の領域に関する新たなアルゴリズムを記述してツールにプラグインしなければならない。このようなアルゴリズムの開発には特別な知識が必要とされるので、ユーザは通常、そのデータの大部分を、データを見て調べ、専門知識を用いてその領域を認識することにより、手動で分類しなければならない。個々の列ごとのデータは、その列のセマンティックが別の列で用いられている場合であっても手動で評価しなければならないので、これは時間のかかる作業である。

Ｌｉｎｇｅｎｆｅｌｄｅｒ他による特許文献１「ＭＥＴＨＯＤＦＯＲＭＡＰＰＩＮＧＡＤＡＴＡＳＯＵＲＣＥＴＯＡＤＡＴＡＴＡＲＧＥＴ」において、データベース・ソースからの少なくとも１つのデータ列をデータ・ターゲットの少なくとも１つのデータ列にマッピングするための方法が開示されている。開示された方法においては、データ・ターゲットの少なくとも１つの参照列と、少なくとも１つのデータベース・ソース列とが定義される。さらに、データ列に含まれるデータと参照列との比較が行われる。最後に、データ列と参照列との間でのマッピング候補が決定される。

米国特許出願公開第２００８／０２０８８５５Ａ１号明細書

本発明の根底にある技術的課題は、専用アルゴリズムの使用を必要とすることなく、かつ、上記の欠点及び短所を伴わずに、いかなる領域内のデータの分類をも容易にすることができる、データ・セットを取り扱うための方法及び構成を提供すること、並びに、データ・セットを取り扱うための方法を実施するためのデータ処理プログラム及びコンピュータ・プログラム製品を提供することである。

本発明によれば、この課題は、請求項１の特徴を有する、データ・セットを取り扱うための方法、請求項１３の特徴を有する、データ・セットを取り扱うための構成、請求項１４の特徴を有するデータ処理プログラム、及び請求項１５の特徴を有するコンピュータ・プログラム製品を提供することにより解決される。本発明の有利な実施形態は、従属請求項において言及される。

したがって、本発明の１つの実施形態において、データ・セットを取り扱うための方法は、第１のデータ・セットに関連付けられた第１の特性、並びに、単一データ値、及び、第２のデータ・セットに関連付けられた第２の特性のうちの少なくとも一方を提供するステップであって、提供された特性が、第１のデータ・セット、第２のデータ・セット及び単一データ値の実行可能な比較を可能にする、ステップと、第１及び第２の特性に基づく第１のデータ・セットと第２のデータ・セットとの類似性、第１の特性及び単一データ値に基づく第１のデータ・セットと単一データ値との類似性、第１の特性に基づく、第１の特性が第１のデータ・セットの性質をどの程度良く反映しているかを示す信頼性、及び、第１の特性及び単一データ値に基づく、第１のデータ・セットと単一データ値との類似性が単一データ値の性質をどの程度良く反映しているかを示す信頼性、のうちの少なくとも１つを計算するステップとを含む。

本発明の更なる実施形態において、第１の特性は、メトリック値の集合を含み、メトリック値の集合内のそれぞれのメトリック値の各々は、第１のデータ・セットに対してそれぞれのメトリック・アルゴリズムを適用することにより計算され、各々のメトリック・アルゴリズムは、メトリック値の集合内のそれぞれのメトリック値、並びに、単一データ値に適用された同じメトリック・アルゴリズムの値及び第２のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも１つの類似性値と、メトリック値の集合内のそれぞれのメトリック値、並びに、単一データ値に適用された同じメトリック・アルゴリズムの値及び第２のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも１つの信頼性値とを提供する。

本発明の更なる実施形態において、各々のメトリック・アルゴリズムは、第１の類似性値を、第１のデータ・セットのそれぞれのメトリック値及び第２のデータ・セットに適用された同じメトリック・アルゴリズムのメトリック値に基づいて計算するための第１の類似性関数と、メトリック・アルゴリズムが第１のデータ・セットの性質をどの程度良く反映しているかを示す第１の信頼性値を、第１のデータ・セットに基づいて計算するための第１の信頼性関数とを、少なくとも用いている。

本発明の更なる実施形態において、各々のメトリック・アルゴリズムは、第２の類似性値を、第１のデータ・セットのそれぞれのメトリック値及び単一データ値に適用された同じメトリック・アルゴリズムのメトリック値に基づいて計算するための第２の類似性関数と、メトリック・アルゴリズムが単一データ値の性質をどの程度良く反映しているかを示す第２の信頼性値を、第１のデータ・セットのそれぞれのメトリック値に基づいて計算するための第２の信頼性関数とを、少なくとも用いている。

本発明の更なる実施形態において、本方法は、第１のデータ・セットと第２のデータ・セットとの類似性、及び第１のデータ・セットと単一データ値との類似性のうちの少なくとも一方を決定するために、少なくとも１つのメトリック・アルゴリズムにより提供される類似性値の加重平均を計算するステップと、第１のデータ・セットと第２のデータ・セットとの類似性を決定するための重みとして、少なくとも第１の信頼性値を用いるステップと、第１のデータ・セットと単一データ値との類似性を決定するための重みとして、少なくとも第２の信頼性値を用いるステップとを含む。

本発明の更なる実施形態において、第１の特性に関連付けられたメトリック・アルゴリズムは、一般統計量メトリック・アルゴリズム、最頻形式メトリック・アルゴリズム、最頻単語メトリック・アルゴリズム、ｎグラム・メトリック・アルゴリズム、及びニューラル・ネットワークに基づくメトリック・アルゴリズムのうちの少なくとも１つを含む。

本発明の更なる実施形態において、第１のデータ・セットに関連付けられた第１の特性と第２のデータ・セットに関連付けられた第２の特性とが異なるメトリック・アルゴリズムを含んでいる場合に、共通のメトリック・アルゴリズム及びそれぞれのメトリック値が類似性の計算に用いられる。

本発明の更なる実施形態において、本方法は、第１の特性をメタデータ・リポジトリ内に格納するステップを含む。

本発明の更なる実施形態において、本方法は、第１及び第２の特性に基づいて、第１のデータ・セット及び第２のデータ・セットのうちの少なくとも一方の領域を決定するステップを含む。

本発明の更なる実施形態において、本方法は、第２の類似性値が所定の条件を満たさない場合に、第２の類似性値に基づいて、単一データ値が第１のデータ・セットの領域と矛盾すると決定するステップ、及び、第２の類似性値が所定の条件を満たす場合に、第２の類似性値に基づいて、単一データ値が第１のデータ・セットの領域と矛盾しないと決定するステップのうちの少なくとも一方を含む。

本発明の更なる実施形態において、本方法は、第１のデータ・セットを、第１の特性に基づいて、データ変換におけるマッピング候補として検出するステップを含む。

本発明の別の実施形態において、データ・セットを取り扱うための構成は、第１のデータ・セットに関連付けられた第１の特性、並びに、単一データ値、及び、第２のデータ・セットに関連付けられた第２の特性のうちの少なくとも一方を提供する手段であって、提供された特性が、第１のデータ・セット、第２のデータ・セット及び単一データ値の実行可能な比較を可能にする、手段と、第１及び第２の特性に基づく第１のデータ・セットと第２のデータ・セットとの類似性、第１の特性及び単一データ値に基づく第１のデータ・セットと単一データ値との類似性、第１の特性に基づく、第１の特性が第１のデータ・セットの性質をどの程度良く反映しているかを示す信頼性、及び、第１の特性及び単一データ値に基づく、第１のデータ・セットと単一データ値との類似性が単一データ値の性質をどの程度良く反映しているかを示す信頼性のうちの少なくとも１つを計算するための手段とを含む。

本発明の別の実施形態において、データ処理システム内での実行のためのデータ処理プログラムは、該プログラムがデータ処理システム上で実行されたときにデータ・セットを取り扱う方法を実施するための、ソフトウェア・コード部分を含む。

本発明のさらに別の実施形態において、コンピュータ使用可能媒体上に格納されたコンピュータ・プログラム製品は、該プログラムがデータ処理システム上で実行されたときにデータ・セットを取り扱う方法をコンピュータに実施させるための、コンピュータ可読プログラム手段を含む。

全体的に見て、本発明の実施形態は、専用アルゴリズムの使用を必要とすることなく、いかなる領域内のデータの分類をも容易にするシステムを提供する。さらに、本発明の実施形態は、対応するデータ・セットの領域に適合しない値を、領域とは独立的した方式で自動的に検出することを容易にするシステムを提供する。

従って、本発明の実施形態は、データ統合プロジェクトにおいて統合されるデータの質を評価する。データが人間により入力されたものである場合、例えば、コール・センタのオペレータによって記入される入力マスクからのデータの場合には、特定の列に入力されたデータ値がその列の領域に対応していないことが非常に頻繁に生じる。よくある例は、電話番号が含まれるべきフィールド内に、電話番号が入手できないがそのアプリケーションがこのフィールドに値を要求するという理由で、オペレータが電子メールアドレスを入力する場合である。別の例は、人々が、必須のフィールドに、何を記入していいかわからない、又は正しい値を有していないなどの理由で、でたらめな文字の組み合わせ、又は単純に「−」を記入する場合である。データの質を評価するために、及び、新たなターゲット・システム内にロードされる前にこれらのデータ値を訂正するためには、各列がどのような共通の無効値の型式を含んでいる可能性があるのかを理解すること、及び、それらの無効値を検出することが重要である。

技術的現状において、この問題は、各列について値分布及び形式分布を計算して、何が有効／無効な値／形式であるかをユーザが定義することを可能にする、上記のＩｎｆｏｒｍａｔｉｏｎＡｎａｌｙｚｅｒのようなデータ・プロファイリング・ツールを用いることによって表面化する。このツールは、データを表示して記述することによってユーザをサポートするに過ぎない。ユーザは、所与の列について、どの値が有効であり、どの値が無効であるかを手動で決定しなければならない。その後で、ツールは、指定された列の値がユーザによって定義された基準を満たさない全ての行を見つけ出すことが可能になる。この手法は、ユーザが各列を検討して、その列の値に対して１つ又は複数の有効性基準を定義することを必要とするので、非常に時間がかかる。その他にも、特定の型式の列を取り扱うことは、この機構には非常に困難である。例えば、限定されたカテゴリ値の集合を含む列、例えば「Ｍ」及び「Ｆ」という２つの異なる値のみを有することができる性別の列ついて、何が有効値であるか否かを明示的に指定することによって定義することは、時間はかかるが簡単である。ＺＩＰコード、ＳＳＮ番号、電話番号、電子メールアドレスのような特定の形式に従う値を含む列について、各々の値がその列の領域に所属するか否かを実証する正規表現を定義することもまた、時間はかかるが実行可能である。他方おいて、人名、会社名、又は、一意の値及び繰り返し可能ではない形式を含むいずれかの型式のデータのような、構造化されていない又は標準化されていないデータを含む列については、このような規則を定義することは困難であり、むしろ不可能である。

本発明の中核となる着想は、各データ・セットについて、例えば列などの対応するデータ・セット内に含まれるデータのクラスを特徴付ける「フィンガープリント」と呼ばれる特性を自動的に計算することである。このようなフィンガープリントは、そのデータの異なる態様を捕捉する幾つかのメトリックから成る。フィンガープリントを構成する各メトリックは、対応するメトリック・アルゴリズムを用いて計算される。提案されるメトリックに関する詳細は本開示において後ほど説明するが、メトリックの例は、データ・セットの全てのデータ値の中の各々の記号又は記号の組み合わせの頻度を計量するメトリック、データ・セットのデータ値の中で最も頻度の高い語又は形式を計量するメトリック、データ・セットのデータ値についての平均長、文字又は数字の割合などの多様な統計量を計量するメトリックなどであり得る。また、「フィンガープリント概念」は特定のメトリック・アルゴリズムに依存しないので、新たなメトリック・アルゴリズムをシステムに追加することができる。使用される各メトリック・アルゴリズムは、あるデータ・セットと、判定すべき別のデータ・セットに属する同じ型式のメトリック・アルゴリズムとの間の類似性スコアを、これら２つのデータ・セットが類似のデータ値を含む場合にすばやく計算すること、及び、あるデータ・セットと判定すべき単一データ値との間の類似性スコアを、このデータ値がこのデータ・セットに属する可能性がある場合にすばやく計算することを可能にする方法を提供するものであるべきである。

メトリック・アルゴリズムのうちの幾つかは、データ・セット内のデータの型式に依存して、より妥当である場合も、又はあまり妥当ではない場合もある。例えば、最頻形式を捕捉するメトリック・アルゴリズムは、例えば住所フィールドのように非常に多数の形式を有するデータを含むデータ・セットに対してはあまり良い代表とはならないが、他方、例えばＺＩＰコードのような一定の形式を有する値を含むデータ・セットに対しては非常に妥当である。この理由で、各メトリック・アルゴリズムは、それが属するデータ・セットに対するそのメトリック・アルゴリズムの信頼性を計算する方法を提供することができるものであるべきである。そのため、本発明の実施形態で用いられるメトリック・アルゴリズムは、２つの異なるデータ・セットに属する２つのフィンガープリント間の類似性スコア、又はフィンガープリントと１つの単一データ値との間の類似性スコアをすばやく計算することを可能にする。

２つのデータ・セットの２つのフィンガープリントを比較する場合、低スコアは、２つのデータ・セット間に領域の一致がないことを示す。従って、この２つのデータ・セットは異なって見えるデータを含んでいる。１００％に近いスコアは、２つのデータ・セットの間の領域の一致を示す。従って、この２つのデータ・セットは、データが、類似の特性を提示しているので、同じ型式のデータを含んでいる可能性が高い。

フィンガープリントを単一データ値と比較する場合、低スコアは、その値がそのデータ・セットの領域に良く一致しないことを示す。１００％に近い値は、その値が、フィンガープリントを所有するデータ・セットの値の領域と矛盾しないことを示す。単一データ値をデータ・セットのフィンガープリントと比較するために、データ・セットのフィンガープリントを決定するために用いられたメトリック・アルゴリズムが、単一データ値の対応するフィンガープリントを決定するためにも用いられる。

データ・セットを解析するときに、各データ・セットのフィンガープリントを計算するために時間費用が高い努力を要する。一旦計算されると、このフィンガープリントは、シリアル化され、解析されたデータ・セットのメタデータに添付することができ、容易に取り出すことができる。２つのフィンガープリントを互いに比較する操作、又は１つのフィンガープリントをデータ値と比較する操作はこれに比べて低費用なので、多数の列の対を短時間で互いに比較することができる。

一旦、各データ・セットについてフィンガープリントが計算され（これはデータ解析操作中に行われる）、メタデータ・リポジトリ内に格納されると、上記のＩｎｆｏｒｍａｔｉｏｎＡｎａｌｙｚｅｒのようなデータ・プロファイリング・ツールは、これらのフィンガープリントを用いて半自動データ解析方式を提供することができる。

従来技術の場合と同様に、ユーザは最初に、データ・セットの少数のデータ値を見て調べ、このデータ・セットのためのデータ・クラスを手動で設定する必要があるが、データ・セットのデータ・クラスが定義されるたびに、本発明の実施形態は、事前計算されたフィンガープリントを用いて、検討されたデータ・セットと同様の類似のフィンガープリントを有する全ての他のデータ・セットを見つけ出すことができる。それに基づいて、本発明の実施形態は、定義された閾値を超えた類似性を有する未検討の全てのデータ・セットのデータ・クラスを自動的に設定することができ、又は、ユーザが新たなデータ・セットの領域を定義することを所望する場合には、この情報を用いて、領域が既知のデータ・セットとの類似性に基づいて、ユーザにデータ・クラスを示唆することができる。

この半自動プロセスは、ユーザの検討作業を著しく加速する。ユーザが、どのデータ・セットも定義された領域を有していないシステムから開始する場合であっても、ユーザは、個々のデータ・セット各々の値を深く調査する必要はない。その代わりに、ユーザは少数のデータ・セットの少数のデータ値に対してそれを行うだけでよい。次いで、本発明の実施形態は、未検討のデータ・セットとの類似性を見いだす。例えば幾つかのレガシー・システムの新規システムへの統合を背景とした、未知システムのデータを既知システムに移動すべきデータ移送プロセスにおいては、ターゲット・システムのデータ・セットのデータ・クラスは全て既知である。その場合、ターゲット・システムは十分な例を含んでいるので、各ソース・データ・セットの領域を推定するプロセスは、ユーザが最初にデータ値の小さいコアを手動で解析することを必要としないであろう。

フィンガープリントは、対応するデータ・セットの領域に適合しないデータ値を自動的に検出することもまた可能にする。あるデータ・セットの全ての単一データ値を、そのデータ・セットのフィンガープリントと比較することができる。フィンガープリントは次に、各々の単一データ値について、データ値のソートに用いることができるスコアを生成する。最も低いスコアを有するデータ値は、そのデータ・セットの領域に適合しない可能性があるデータ値であり、手動による検討を必要とする。

このようなフィンガープリントは、データ変換におけるマッピング候補の検出などのような、その他の問題を解決するために用いることもできる。

本発明の上記の、及び更なる目的、特徴、及び利点は、以下の詳細な説明において明らかとなる。

以下で詳細に説明される本発明の好ましい実施形態を図面で示す。

本発明の一実施形態によるデータ処理システムの概略的なブロック図である。本発明の一実施形態によるデータ・セットを取り扱うための方法の概略的な流れ図である。本発明の一実施形態による、異なるデータ・セットのメタデータに添付される特性を示すブロック図である。本発明の実施形態により用いられる特性としてフィンガープリントを実装するＵＭＬモデルである。本発明の実施形態によりデータ・セットの特性を計算するためのメトリック・アルゴリズムとして用いられる、最頻単語アルゴリズムを示すブロック図である。本発明の実施形態によりデータ・セットの特性を計算するためのメトリック・アルゴリズムとして用いられる、最頻形式アルゴリズムを示すブロック図である。２つの異なるデータ・セット内のデータ値の長さについての正規分布を各々が表す、２つのガウス曲線を示す図である。２つの異なるデータ・セットのデータ値における単語の数に関する正規分布を各々が表す、２つのガウス曲線を示す図である。２つの異なるデータ・セットのデータ値における文字の割合についての正規分布を各々が表す、２つのガウス曲線を示す図である。２つの異なるデータ・セットのデータ値における数字の割合についての正規分布を各々が表す、２つのガウス曲線を示す図である。データ・セット内のデータ値の長さについての正規分布を表すガウス曲線及び単一データ値の長さを示す図である。データ・セットのデータ値における単語の数についての正規分布を表すガウス曲線及び単一データ値における単語の数を示す図である。データ・セットのデータ値における文字の割合についての正規分布を表すガウス曲線及び単一データ値における文字の割合を示す図である。データ・セットのデータ値における数字の割合についての正規分布を表すガウス曲線及び単一データ値における数字の割合を示す図である。

図１は、本発明の実施形態によるデータ処理システム１０を示し、図２は、本発明の実施形態による、データ・セット１２、１４を取り扱うための方法を示す。

図１及び図２を参照すると、本発明の図示された実施形態は、データ・セット１２、１４を取り扱うための方法を使用し、この方法は、ステップＳ１０において、第１のデータ・セット１２に関連付けられた第１の特性２０．１又はいわゆる「フィンガープリント」、並びに、単一データ値、及び、第２のデータ・セット１４に関連付けられた第２の特性２０．２のうちの少なくとも一方を提供することを含み、提供された特性２０．１、２０．２が、第１のデータ・セット１２、第２のデータ・セット１４及び単一データ値１２’の実行可能な比較を可能にする。単一データ値１２’を第１のデータ・セット１２と比較するために、特性２０．１は、通常は、単一データ値１２’についても決定される。単一データ値についてのこの特性は、事前計算することもでき、又は第１のデータ・セットと単一データ値１２’との比較が行われるときに計算することもできる。ステップＳ２０において、第１及び第２の特性２０．１、２０．２に基づく第１のデータ・セット１２と第２のデータ・セット１４との類似性、第１の特性２０．１及び単一データ値１２’に基づく第１のデータ・セット１２と単一データ値１２’との類似性、第１の特性２０．１に基づく、第１の特性２０．１が第１のデータ・セット１２の性質をどの程度良く反映しているかを示す信頼性、並びに、第１の特性２０．１及び単一データ値１２’に基づく、第１のデータ・セット１２と単一データ値１２’との類似性が単一データ値の性質をどの程度良く反映しているかを示す信頼性、のうちの少なくとも１つが計算される。図１において、単一データ値１２’を表す、又は単一データ値１２’に適用される構成要素は、破線で示される。第１のデータ・セットを、類似性値に基づいて第２のデータ・セット及び単一データ値と比較して、第１のデータ・セットと第２のデータ・セット又は単一の値とが同じデータ領域内にあるか否かを評価することができる。

さらに図１を参照すると、図示された実施形態において、データ処理システム１０は、ブロック２０において、４つのメトリック・アルゴリズム２２、２４、２６、２８を用いて、第１のデータ・セット１２の第１の特性２０．１の一部であるメトリック値１２２２、１２２４、１２２６、１２２８を計算し、かつ、第１のデータ・セット１２と比較される第２のデータ・セット１４の第２の特性２０．２の一部であるメトリック値１４２２、１４２４、１４２６、１４２８を計算する。代替的に、４つのメトリック・アルゴリズム２２、２４、２６、２８より多い又は少ないメトリック・アルゴリズムを用いて、第２の特性２０．２のメトリック値１４２２、１４２４、１４２６、１４２８を計算することができる。更なる代替法として、ブロック２０は、第１のデータ・セット１２の第１の特性２０．１及び第２のデータ・セット１４の第２の特性２０．２のうちの少なくとも一方を外部ソースから受け取り、更なる処理のためにそれらを提供する。このように、データ・セット１２、１４の特性２０．１、２０．２は、前処理中に決定することができる。

第１のデータ・セット１２が単一データ値１２’と比較される場合には、ブロック２０において、第２のデータ・セット１４のメトリック値１４２２、１４２４、１４２６、１４２８の代わりに、単一データ値１２’の対応するメトリック値１２’２２、１２’２４、１２’２６、１２’２８が、第１のデータ・セット１２の第１の特性２０．１を計算するために用いられたメトリック・アルゴリズム２２、２４、２６、２８によって計算される。これは、一般に比較に関連して行われ、前処理中には行われない。メトリック・アルゴリズム２２、２４、２６、２８は、対応するメトリック値１２２２、１２２４、１２２６、１２２８、１２’２２、１２’２４、１２’２６、１２’２８、１４２２、１４２４、１４２６、１４２８に加えて、少なくとも１つの類似性値４２、４６及び少なくとも１つの信頼性値４４、４８を、メトリック値１２２２、１２２４、１２２６、１２２８、１２’２２、１２’２４、１２’２６、１２’２８、１４２２、１４２４、１４２６、１４２８に基づいて提供する。各メトリック・アルゴリズム２２、２４、２６、２８は、比較ユニット３０の第１の類似性関数３２を用いて、第１のデータ・セット１２のメトリック値１２２２、１２２４、１２２６、１２２８、及び、第２のデータ・セット１４に適用された同じメトリック・アルゴリズム２２、２４、２６、２８のメトリック値１４２２、１４２４、１４２６、１４２８に基づいて、第１の類似性値４２を計算し、比較ユニット３０の第１の信頼性関数３４を用いて、第１のデータ・セット１２のメトリック値１２２２、１２２４、１２２６、１２２８に基づいて、対応するメトリック・アルゴリズム２２、２４、２６、２８が第１のデータ・セット１２の性質をどの程度良く反映しているかを示す第１の信頼性値４４を計算する。

さらに、各メトリック・アルゴリズムは、比較ユニット３０の破線で示された第２の類似性関数３６を用いて、第１のデータ・セット１２のメトリック値１２２２、１２２４、１２２６、１２２８、及び、単一データ値１２’に適用された同じメトリック・アルゴリズム２２、２４、２６、２８のメトリック値１２’２２、１２’２４、１２’２６、１２’２８に基づいて、第２の類似性値４６を計算し、比較ユニット３０の同じく破線で示された第２の信頼性関数３８を用いて、第１のデータ・セット１２及び単一データ値１２’のメトリック値１２２２、１２２４、１２２６、１２２８、１２’２２、１２’２４、１２’２６、１２’２８に基づいて、第１のデータ・セット１２、１４、１６、１８のメトリック・アルゴリズム２２、２４、２６、２８が、単一データ値１２’の性質をどの程度良く反映しているかを示す第２の信頼性値４８を計算する。第１及び第２の類似性値４２、４６、並びに第１及び第２の信頼性値４４、４８は、比較ユニット３０により生成される比較結果４０の一部である。別の言い方をすれば、類似性は、２つのデータ・セット１２、１４の、又は、１つのデータ・セット１２及び単一データ値１２’の関数である。厳密に言えば、類似性は、各々が１つの対応するデータ・セットについて決定されたメトリック値の２つの集合の関数、又は、１つはデータ・セットについて決定され、もう１つは単一データ値について決定されたメトリック値の２つの集合の関数のうちの一方である。類似性が計算される時点では、データ・セット全体は典型的にはもはや利用できず、メトリック値のみが利用可能である。信頼性は、メトリック・アルゴリズム自体の関数であり、メトリック・アルゴリズムが、そのメトリック・アルゴリズムの計算が行われたデータ・セットに対してどの程度有意であるかを示すものである。２つのデータ・セットを比較する場合には、信頼性は第１のデータ・セットのメトリック値のみの関数であり、従って、「事前計算」されている。したがって、一旦メトリック値が事前計算されると、信頼性は既知となる。単一データ値をデータ・セットと比較する場合には、信頼性は、データ・セットのメトリック値と単一データ値のメトリック値との関数である。そのため、信頼性は、もはや事前計算されたものではなく、検定される各々の単一データ値ごとに異なるものとなり得る。

特性２０．１、２０．２又はフィンガープリントは、１つ又は複数のメトリック値のための論理上の入れものである。技術的には、フィンガープリントは、データ・セット１２、１４の全てのデータ値を、対応するフィンガープリントを構成する全てのメトリック・アルゴリズムに連続的に通すことで計算される。各特性２０．１、２０．２は、それ自体のメトリック・アルゴリズム２２、２４、２６、２８を用いてメトリック結果を計算する。一旦、全てのデータ値が全てのメトリック・アルゴリズム２２、２４、２６、２８によって解析されると、全てのメトリック結果は、シリアル化されて、フィンガープリントのシリアル化形態を表す１つのエンティティにされ、これをメタデータ・リポジトリ内に格納するか、又は解析されたデータ・セット１２、１４のメタデータに添付することができる。任意のシリアル化形式を用いることができる。好ましい実施形態においてはＸＭＬ形式を用いることができるが、形式自体は本発明にとって重要ではない。

図３は、ある表の中の姓、住所、郵便番号又は電話の列を各々が表す異なるデータ・セット１２、１４、１６、１８のメタデータに添付された、フィンガープリント２０．１、２０．２、２０．３、２０．４を示し、図４は、フィンガープリントを本発明の実施形態で用いられる特性として実装するための、ＵＭＬ（統一モデリング言語）モデルを示す。

図３及び図４を参照すると、各データ・セット１２、１４、１６、１８に対して、幾つかのメトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６から成るフィンガープリント２０．１、２０．２、２０．３、２０．４が、各々のデータ・セット１２、１４、１６、１８について計算されており、対応するメタデータに添付されている。フィンガープリント２０．１、２０．２、２０．３、２０．４をデータ・セット１２、１４、１６、１８に関連付けることは、メタデータ・モデルをフィンガープリント２０．１、２０．２、２０．３、２０．４の概念をサポートするように拡張すること、又はそのメタデータ・モデルが提供することができる汎用注釈機構を使用すること、又は単にデータ・セット名をシリアル化されたフィンガープリント２０．１、２０．２、２０．３、２０．４に関連付ける表を使用すること、のいずれかで行うことができる。

図３は、異なるデータ・セット１２、１４、１６、１８のフィンガープリント２０．１、２０．２、２０．３、２０．４が、異なるメトリック型式を含むことができることを示す。例えば、姓及び住所の列のフィンガープリント２０．１、２０．２は、異なる文字のバイグラムの出現頻度を計量する「バイグラム・メトリック・アルゴリズム」２８を含む。バイグラム・メトリックは、文字を含んで単語を形成する値に対してのみ計算することができるが、それは、「郵便番号」及び「電話」の列には当てはまらない。その理由で、バイグラム・メトリックは、郵便番号及び電話の列については計算されていない。バイグラム・メトリック・アルゴリズム２８は、メトリック値１２２８及び１４２８を計算する。特性２０．１、２０．２、２０．３、２０．４のためのメトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６を計算するメトリック・アルゴリズム２２、２４、２６、２８は、全てのデータ・セット１２、１４、１６、１８に対して同じである必要はない。図示された、姓、住所、郵便番号、及び電話の列の全てのフィンガープリント２０．１、２０．２、２０．３、２０．４は、「一般統計量メトリック・アルゴリズム」２２により計算されるメトリック値１２２２、１４２２、１６２２、１８２２、「最頻形式メトリック・アルゴリズム」２４により計算されるメトリック値１２２４、１４２４、１６２４、１８２４、及び「最頻単語メトリック・アルゴリズム」２６により計算されるメトリック値１２２６、１４２６、１６２６、１８２６を含む。２つのデータ・セット１２、１４、１６、１８が互いに比較されるときには、同じ型式のメトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６の対のみが比較されることになり、一方のフィンガープリント２０．１、２０．２、２０．３、２０．４には存在するが他方のフィンガープリントには存在しないメトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６は無視されることになる。２つのフィンガープリント２０．１、２０．２、２０．３、２０．４が互いに比較可能であるためには、共通する同じ型式の少なくとも１つのメトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６を有していなければならない。図示された実施形態において、第１のデータ・セット１２と第２のデータ・セット１４とを比較する場合には、一般統計量メトリック・アルゴリズム２２、最頻形式メトリック・アルゴリズム２４、最頻単語メトリック・アルゴリズム２６、及びバイグラム・メトリック・アルゴリズム２８により計算されたメトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８が用いられる。第３のデータ・セット１６と第４のデータ・セット１８とを比較する場合には、一般統計量メトリック・アルゴリズム２２、最頻形式メトリック・アルゴリズム２４、及び最頻単語メトリック・アルゴリズム２６により計算されたメトリック値１６２２、１６２４、１６２６、１８２２、１８２４、１８２６が用いられる。第１又は第２のデータ・セット１２、１４と、第３のデータ・セット１６又は第４のデータ・セット１８とを比較する場合には、一般統計量メトリック・アルゴリズム２２、最頻形式メトリック・アルゴリズム２４、及び最頻単語メトリック・アルゴリズム２６により計算されたメトリック値１２２２、１２２４、１２２６、１４２２、１４２４、１４２６、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６が用いられ、バイグラム・メトリック・アルゴリズム２８により計算されたメトリック値１２２８、１４２８は無視される。

さらに図３及び図４を参照すると、フィンガープリントの概念は、フィンガープリントを、２つの異なるデータ・セット１２、１４、１６、１８の２つのフィンガープリント２０．１、２０．２、２０．３、２０．４の間、又は１つのフィンガープリント２０．１、２０．２、２０．３、２０．４と単一データ値１２’との間の類似性スコアを計算するための２つの方法を定義するクラスとして用いることにより、実装することができる。

フィンガープリント２０．１、２０．２、２０．３、２０．４は、抽象メトリック・クラスにより表される１つ又は複数のメトリックを含む。抽象メトリック・クラスのサブクラスにより特殊化された各メトリックは、４つの関数を与える。第１の類似性関数３２は、メトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６と、別のフィンガープリント２０．１、２０．２、２０．３、２０．４からの同じ型式タイプの別のメトリック値１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６との間の類似性スコア４２を返している。第１の信頼性関数３４は、そのメトリックが計算されたデータ・セット１２、１４、１６、１８に対するメトリックの信頼性値４４を返している。信頼性値４４は、０．０と１．０との間の値であり、このメトリックによって返される類似性スコア４２が、フィンガープリント２０．１、２０．２、２０．３、２０．４を所有するデータ・セット１２、１４、１６、１８内に含まれるデータの型式についてどの程度良く信頼することができるかを示す。第２の類似性関数３６は、単一データ値が、全データ・セット１２、１４、１６、１８について計算されたメトリックにどの程度良く適合するかを示す類似性スコア４６を返している。第２の信頼性関数３８は、第２の類似性関数３６により返される結果の信頼性値４８を返している。

類似性関数及び信頼性関数３２、３４、３６、３８は、一般に対称ではない。それは、２つのデータ・セット１２、１４間の類似性を第１のデータ・セット１２のメトリック値を参照として用いて計算すると、２つのデータ・セット１２、１４間の類似性を第２のデータ・セット１４のメトリック値を参照として用いて計算した場合とは僅かに異なる値を返すことを意味する。同じことが、信頼性関数３４、３８についても当てはまる。通常は、参照と、比較されるメトリックとを入れ替えたときに結果が異なったとしても、この差は十分に小さいので、どちらを参照として用いるかは問題にならない。代替法として、第１のデータ・セット１２を参照して２つのデータ・セット１２、１４間の類似性を計算し、次いで第２のデータ・セット１４を参照して２つのデータ・セット１２、１４間の類似性を計算し、次いでこれら２つの結果の平均値を求めてこれを返すことは、計算により時間がかかるがより安全であり得る。説明される実施形態において、２つのデータ・セットを比較するときに用いられる信頼性は参照データ・セットのみの関数なので、第１の信頼性値４４は、参照データ・セットとしての第１のデータ・セット１２のみに関連する。代替的に、信頼性を両データ・セット１２、１４のメトリック値に基づいて動的に計算するためのより複雑なアルゴリズムを用いることができる。しかし、検定の際に、参照データ・セットのみを考慮して信頼性を計算することで十分に良好な結果が得られるように思われたので、より複雑なアルゴリズムは正当化されなかった。

さらに、２つのデータ・セット１２、１４が比較される場合、一方のデータ・セットだけをここで第１のデータ・セット／メトリックと呼ぶ参照データ・セットとして任意に選択し、他方のデータ・セットをここで第２のデータ・セット／メトリックと呼ぶ比較データ・セットとして選択することができる。重みは、参照データ・セットの信頼性値である。より正確な計算は、最初に第１のデータ・セットを参照として結果を計算し、同じ計算を第２のデータ・セットを参照として再び行い、両方の平均として最終結果を返すことであろう。

式（１）及び（２）は、２つのフィンガープリント２０．１、２０．２、２０．３、２０．４の間、又はフィンガープリント２０．１、２０．２、２０．３、２０．４と単一データ値との間の類似性スコアを、メトリック・アルゴリズム２２、２４、２６、２８の結果に基づいて計算するために用いられる例示的な式を示す。

２つのフィンガープリント２０．１、２０．２、２０．３、２０．４の間の類似性は、それらが共通して有するメトリックの第１の類似性関数３２又は第２の類似性関数３６の結果の加重平均として計算される。各メトリックに対して用いられる重みは、対応する信頼性関数３４、３８によって計算されるそのメトリックの信頼性値である。式（１）において、Ｓｉｍｉｌａｒｉｔｙ_１は、第１の又は参照データ・セットのフィンガープリントと比較したときの第２のデータ・セットのフィンガープリントの類似性を表し、Ｃｏｎｆｉｄｅｎｃｅ（Ｍｅｔｒｉｃ_{ｉ，ｄａｔａｓｅｔ１}）は、データ・セット１について計算されたメトリックｉの信頼性である。Ｓｉｍｉｌａｒｉｔｙ（Ｍｅｔｒｉｃ_{ｉ，ｃｏｌ１}，Ｍｅｔｒｉｃ_{ｉ，ｃｏｌ２}）は、データ・セット１についてのメトリックｉと、データ・セット２についての同じメトリックｉとの間の類似性を表す。式（１）内の反復を、両フィンガープリント内に存在するメトリックの全ての対について行う。

１つのデータ・セットのフィンガープリントとデータ値との間の類似性は、同様の手法で、但し、メトリックの第２の類似性関数３６及び第２の信頼性関数３８を適用することにより計算される。

以下、本発明の好ましい実施形態で用いられる４つの異なるメトリック・アルゴリズム２２、２４、２６、２８を説明する。

バイグラム・アルゴリズム２８の考え方は、人が読むことができる値を含むデータにおいて、文字の組み合わせの頻度は均等に分布していないという事実に基づくものであり、ここで、値は、単語、名前、又は人間の言語に基づく何らかのもので構成されている。例えば、英語において、文字Ｅは、テキスト内で文字Ｚよりもずっと頻繁に使用される。２つの文字の組み合わせを表すバイグラムを調べると、幾つかの組合せは、例えば文字「Ｑ」は英語では殆どの場合に後に文字「Ｕ」が続くというように、非常に頻度が高く、その他の幾つかの組み合わせ、例えば文字「Ｑ」の後にもうひとつ文字「Ｑ」が続くことは、起こる可能性が低い。この、全ての可能なバイグラムに関する頻度の表は、対応するデータ・セット１２、１４により表される領域を代表するものである。英語に基づくフリーテキスト値を含むデータ・セット１２、１４、例えば住所、人名、会社名などは、英語に特有のバイグラム表を有することになる。ドイツ語の値を含むデータ・セットは、僅かに異なるバイグラム表を有することになる。自然言語に基づかないコードを含むデータ・セットは、完全に異なる表を有することになる。そのようなバイグラム表を計算するために、対応するテキスト値の全ての記号が大文字に変換される。「＠、−、＊」のような特殊記号及び数字は除去され、その場合、空白は無視されない。次に、２文字長のスライディング・ウィンドウを、残った記号列上で移動させて、全ての可能なバイグラムの行列を生成し、出現した各々のバイグラムについて頻度を数える。全ての内容が処理されたとき、各バイグラムについて発生確率が計算される。

図３において、メトリック値１２２８及び１４２８は、各々、姓及び住所の列に関して生成されたそのようなバイグラムの一部を示す。この行列は、以下のように読まれる。即ち、第１行第１列のセルは、バイグラムＡＡが出現する確率が０％であることを示す。第１行第２列のセルは、バイグラムＡＢについての確率を示す。第２行第１列のセルは、バイグラムＢＡの確率を示し、以下同様である。

式（３）は、データ・セット１２、１４の間の類似性スコアを、バイグラム・メトリック・アルゴリズム２８の結果に基づいて計算するために用いられる例示的な式を示す。

２つの異なるデータ・セット１２、１４の２つのバイクラム・メトリック間の類似性を計算するために、２つのデータ・セット１２、１４についてのバイグラム表１２２８、１４２８がロードされる。次に、行列の全ての値が、長い数字シーケンスとして、各行列につき１つの頻度シーケンスとして取得される。次に、これらの２つの頻度系列の間の相関が計算される。相関が正であれば、それが類似性スコアとして返される。相関が負であれば、類似性スコアは０であると見なされる。行列同士が類似しているほど、相関は１００％に近づき、従って類似性スコアも１００％に近づくことになる。

式（４）は、バイグラム・メトリック・アルゴリズム２８の信頼性を計算するために用いられる例示的な式を示す。バイグラム・メトリック・アルゴリズム２８は、フリーテキストを含む値を代表するものであるが、バイグラム・パターンにとっては代表する度合いが低く、ランダムに分布するはずの値に対しては役に立たない。好ましい実施形態において、行列内の０を上回る頻度を有するセルの割合が、信頼性として計算される。このようにすると、バイグラム・メトリック・アルゴリズム２８は、全てのバイグラムが表現されたフリーテキスト列については強い信頼性を有し、値の数及び多様性が行列全体を埋めるほど十分に高くなかった列については、より低い信頼性を有する。

式中、Ｍｅｔｒｉｃ_ｃｏｌ１（ｒｏｗ，ｃｏｌ）＝０であれば、ｆ（Ｍｅｔｒｉｃ_ｃｏｌ１（ｒｏｗ，ｃｏｌ））＝０であり、Ｍｅｔｒｉｃ_ｃｏｌ１（ｒｏｗ，ｃｏｌ）＞０であれば、ｆ（Ｍｅｔｒｉｃ_ｃｏｌ１（ｒｏｗ，ｃｏｌ））＝１である。

バイグラム・メトリックと１つの単一データ値との間の類似性を計算するためには、バイグラム行列を、各列における最大頻度が１００％に正規化されるように、正規化しなければならない。式（５）は、正規化のための式を示す。行列内の各セルを、同じ列内で見いだされる最大頻度で除する。

次いで、比較される単一データ値から全てのバイグラムが抽出され、これらのバイグラムの各々についての値を、正規化行列内で探索する。式（６）に従って、単一データ値内で見いだされた全てのバイグラムについて、平均値が計算される。

最後に、式（６）を用いて得られたスコアを、０．４を上回るスコアが１に近い類似性を与えるように変換しなければならない。好ましい実施形態において用いられる変換関数は、式（７）で示される。

代替的に、同じ方法を、モノグラム若しくはトライグラム又は一般にｎグラムで用いることができよう。

最頻単語メトリック・アルゴリズム２６は、解析されるデータ・セット１２、１４、１６、１８の全てのデータ値の中で見いだされる最も頻繁に繰り返される単語のリストを計算する。これは、繰り返し現れる単語を用いるデータ・セット１２、１４、１６、１８における類似性を検出するにはかなり効果的なメトリックである。例えば、所番地を含むデータ・セット１２、１４、１６、１８は、「ストリート（Ｓｔｒｅｅｔ）」、「アベニュー（Ａｖｅｎｕｅ）」、「市名」などのような繰り返し現れる単語を有している可能性が高い。人名を含むデータ・セット１２、１４、１６、１８は、繰り返し現れる姓及び名を有している可能性が高い。

図５は、最頻単語を計算するためのアルゴリズム２６を示す。データ・セット１２、１４、１６、１８において見出された各単語の頻度が計算される。最後に、上位Ｎ個の値のみが解析用に保持され、稀にしか出現しない値は無視される。分布の幅は、メトリック２６がどの程度良く機能するかに関する良い指標であり、従って、信頼性を計算するために用いられる。

式（８）及び（９）は、好ましい実施形態において、この最頻単語メトリック・アルゴリズム２６についての類似性及び信頼性を計算するために用いられる式を示す。

式中、ｃは、定数であり、例えば、

である。

２つの最頻単語メトリック２６の間の類似性を計算するために、第１のメトリックにおける上位Ｎ個の単語の頻度と、第２のメトリックにおける同じ単語の頻度との間のユークリッド距離が計算される。さらに、その他の全ての単語、即ち、上位Ｎ個のリストに属していない単語の頻度が、更なる次元として取得される。距離ｄｉｓｔを計算するための式は、例えば、式（８）で表される。次に、距離ｄｉｓｔは、例えば、式（９）で表される変換関数を用いることにより、０．０と１．０との間のスコアに変形される。メトリックの信頼性は、少なくとも１つの単語が、メトリックによって捕捉された上位Ｎ個の単語の一部となっている値の、そのメトリックを所有するデータ・セット１２、１４、１６、１８における割合である。。式（１０）は、最頻単語メトリック２６についての信頼性を計算するための式を示す。

式中、値（ｉ）がメトリックの上位Ｎ個の最頻単語リスト内に存在しなければ、ｆ（ｖａｌｕｅ（ｉ））＝０であり、値（ｉ）がメトリックの上位Ｎ個の最頻単語リスト内に存在すれば、ｆ（ｖａｌｕｅ（ｉ））＝１である。

単一データ値と再頻度語メトリックとの間の類似性は、少し異なった手法で計算される。好ましい実施形態において、二値的類似性は、単一データ値の単語がメトリックの上位Ｎ個の最頻単語内になければ０．０となり、少なくとも１つの単語がリスト内にあれば１．０となる、そのいずれかである。信頼性は、単一データ値を構成する全ての単語の、上位Ｎ個の単語のメトリックにおける頻度を合計することにより計算される。

図６は、最頻形式を計算するためのアルゴリズム２４を示す。最頻形式メトリック・アルゴリズム２４は、最頻単語メトリック・アルゴリズム２６に類似しているが、繰り返し出現する語を捕捉する代わりに、繰り返し出現する形式を捕捉する。解析されるデータ・セット１２、１４、１６、１８内の各データ値は、形式マスクに変換され、そこでは例えば、全ての大文字が「Ａ」に変換され、全ての小文字が「ａ」に変換され、全ての数字が「９」に変換され、その他の全ての記号は変更されないまま残される。例えば、「７７０１９−６８１３」に対する形式マスクは「９９９９９−９９９９」になり。「ＡＢＣ１２３」に対する形式マスクは「ＡＡＡ９９９」なる。

一旦、値がその形式マスクに変換されると、最頻単語メトリック２６の場合と類似の技術を用いて、上位Ｎ個の最頻形式が計算される。最頻単語メトリック２６の場合と同様に、２つの最頻形式メトリック２４の間の類似性は、式（１１）で表されるユークリッド距離を用い、式（１２）で表される変換関数を用いるにことにより、計算される。

式中、ｃは、定数であり、例えば、

である。

メトリックの信頼性は、最頻形式メトリック２４により捕捉された全ての形式の頻度の合計である。式（１３）は、最頻形式メトリック２４についての信頼性を計算するための式を示す。

単一データ値と最頻形式メトリック２４との間の類似性は、ここでもやはり二値的である。したがって、二値的類似性は、単一データ値の形式がメトリック２４の上位Ｎ個の最頻形式内になければ０．０となり、その形式がリスト内にあれば１．０となる、そのいずれかである。信頼性は、単純に、単一データ値の形式の、メトリックにおける頻度である。

一般統計量メトリック・アルゴリズム２２は、解析されるデータ・セット１２、１４、１６、１８内に含まれるデータ値についての統計量を収集することに関する。好ましい実施形態において収集される統計量は、データ値の平均長及びその標準偏差、各データ値内の単語の平均個数及びその標準偏差、データ値内の文字の平均割合及びその標準偏差、並びにデータ値内の数字の平均割合及びその標準偏差である。したがって、２つの一般統計量メトリックの間の類似性は、上で挙げた４つの統計量の各々について、２つの正規分布を比較することと同じである。

図７乃至図１０は各々、このプロセスをグラフで示す。各々の一般統計量メトリック２２は、値の長さ（記号の数）（図７参照）、単語の数（図８参照）、文字の割合（図９参照）、及び数字の割合（図１０参照）についての正規分布を表す４つのガウス曲線としてグラフで表示することができる。別のデータ・セット由来の別のメトリックの４つの分布を同じグラフ上に重ねると、各次元についての類似性は、この場合は実線の曲線が第１の一般統計量メトリックを表し、破線の曲線が第２の一般統計量メトリックを表す２つの曲線間の共通の面積を計量することにより、計量することができる。図７を参照すると、比較された２つのデータ・セットは、記号の数（データ値の長さ）に関して３８．１５％の類似性を有する。図８を参照すると、比較された２つのデータ・セットは、単語の数に関して１９．５７％の類似性を有する。図９を参照すると、比較された２つのデータ・セットは、文字の割合に関して８８．２８％の類似性を有する。図１０を参照すると、比較された２つのデータ・セットは、数字の割合に関して８１．９０％の類似性を有する。これらの類似性スコアの平均を計算することにより、２つのデータ・セット間の全類似性スコアを得る。

単一データ値と一般統計量メトリック２２との間の類似性の計算は、同じ手法で行われる。しかし、２つの正規分布を互いに比較する代わりに、図１１乃至図１４において示されるように、正規分布と単一データ値とが比較される。図１１を参照すると、データ・セット及び単一データ値は、記号の数（データ値の長さ）について、９４．１％の類似性を有する。図１２を参照すると、データ・セット及び単一データ値は、単語の数について８２．６％の類似性を有する。図１３を参照すると、データ・セット及び単一データ値は、文字の割合について９０％の類似性を有する。図１４を参照すると、データ・セット及び単一データ値は、数字の割合について８５％の類似性を有する。これらの類似性スコアの平均を計算することにより、データ・セットと単一データ値との間の全類似性スコアを得る。

データ・セットを取り扱うための本発明の方法は、全体がソフトウェアの実施形態として、又はハードウェア要素とソフトウェア要素の両方を含む実施形態として、実装することができる。１つの好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアとして実装される。

さらに、本発明は、コンピュータ若しくはいずれかの命令実行システムによって使用されるか又はこれらと関連して使用されるプログラム・コードを提供するコンピュータ使用可能媒体又はコンピュータ可読媒体からアクセス可能なコンピュータ・プログラム製品の形態を取ることができる。この説明の目的に関して、コンピュータ使用可能媒体又はコンピュータ可読媒体は、命令実行システム、装置若しくはデバイスによって使用されるか又はこれらと関連して使用されるためのプログラムを収容し、格納し、通信し、伝搬し、又は搬送することができるいずれかの装置とすることができる。

媒体は、電子、磁気、光学、電磁気、赤外線若しくは半導体のシステム（又は装置若しくはデバイス）、又は伝搬媒体とすることができる。コンピュータ可読媒体の例としては、半導体又は固体メモリ、磁気テープ、取り外し可能コンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、剛性磁気ディスク及び光ディスクが挙げられる。現在の光ディスクの例として、コンパクトディスク−読み出し専用メモリ（ＣＤ−ＲＯＭ）、コンパクトディスク−読み出し／書き込み（ＣＤ−Ｒ／Ｗ）及びＤＶＤが挙げられる。プログラム・コードを格納し、及び／又は実行するのに適したデータ処理システムは、システム・バスを通じてメモリ要素に直接又は間接に結合される少なくとも１つのプロセッサを含む。メモリ要素は、プログラム・コードの実際の実行中に用いられるローカル・メモリと、大容量記憶デバイスと、実行中に大容量記憶デバイスからコードを取り出さなければならない回数を減らすために少なくとも幾つかのプログラム・コードの一時的な記憶場所を提供するキャッシュ・メモリとを含むことができる。

入出力デバイス即ちＩ／Ｏデバイス（キーボード、ディスプレイ、ポインティング・デバイスなどを含むがこれらに限定されない）は、システムに、直接的に、又は介在するＩ／Ｏコントローラを通じて結合することができる。

ネットワーク・アダプタをシステムに結合して、データ処理システムを、介在する私設ネットワーク又は公衆ネットワークを通じて他のデータ処理システム又は遠隔のプリンタ若しくは記憶装置に結合できるようにすることもできる。モデム、ケーブル・モデム及びイーサネット・カードは、現在利用可能なネットワーク・アダプタのタイプのうちのごく一部である。

１０：データ処理システム
１２、１４、１６、１８：データ・セット
１２’：単一データ値
２０．１、２０．２、２０．３、２０．４：特性（フィンガープリント）
２２：一般統計量メトリック・アルゴリズム
２４：最頻形式メトリック・アルゴリズム
２６：最頻単語メトリック・アルゴリズム
２８：バイグラム・メトリック・アルゴリズム
３０：比較ユニット
３２：第１の類似性関数
３４：第１の信頼性関数
３６：第２の類似性関数
３８：第２の信頼性関数
４０：比較結果
４２：第１の類似性値
４４：第１の信頼性値
４６：第２の類似性値
４８：第２の信頼性値
１２２２、１２２４、１２２６、１２２８、１２’２２、１２’２４、１２’２６、１２’２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１８２２、１８２４、１８２６：メトリック値
１２’２２、１２’２４、１２’２６、１２’２８：単一データ値のメトリック値

Claims

データ・セットを取り扱う方法であって、
コンピュータが、第１のデータ・セット（１２、１４、１６、１８）に関連付けられた第１の特性（２０．１、２０．２、２０．３、２０．４）、単一データ値（１２’）、及び、第２のデータ・セット（１２、１４、１６、１８）に関連付けられた第２の特性（２０．１、２０．２、２０．３、２０．４）を提供するステップであって、前記提供された特性（２０．１、２０．２、２０．３、２０．４）が、前記第１のデータ・セット（１２、１４、１６、１８）、前記第２のデータ・セット（１２、１４、１６、１８）及び前記単一データ値（１２’）の実行可能な比較を可能にする、ステップと、
前記コンピュータが、
・前記第１及び第２の特性に基づく、前記第１のデータ・セット（１２、１４、１６、１８）と前記第２のデータ・セット（１２、１４、１６、１８）との類似性、及び
・前記第１の特性及び前記単一データ値（１２’）に基づく、前記第１のデータ・セット（１２、１４、１６、１８）と前記単一データ値（１２’）との類似性、
のうちの少なくとも１つと、
・前記第１の特性に基づく、前記第１の特性が前記第１のデータ・セット（１２、１４、１６、１８）の性質をどの程度良く反映しているかを示す信頼性、及び
・前記第１の特性及び前記単一データ値（１２’）に基づく、前記第１のデータ・セットと前記単一データ値（１２’）との前記類似性が前記単一データ値の性質をどの程度良く反映しているかを示す信頼性
のうちの少なくとも１つを計算するステップと、
を含む、方法。
前記第１の特性（２０．１、２０．２、２０．３、２０．４）は、メトリック値の集合（１２２２、１２２４、１２２６、１２２８、１２’２２、１２’２４、１２’２６、１２’２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１６２８、１８２２、１８２４、１８２６、１８２８）を含み、
前記メトリック値の集合（１２２２、１２２４、１２２６、１２２８、１２’２２、１２’２４、１２’２６、１２’２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１６２８、１８２２、１８２４、１８２６、１８２８）内のそれぞれのメトリック値の各々は、前記第１のデータ・セットに対してそれぞれのメトリック・アルゴリズム（２２、２４、２６、２８）を適用することにより計算され、
前記各々のメトリック・アルゴリズム（２２、２４、２６、２８）は、
・前記メトリック値の集合内のそれぞれのメトリック値、並びに、前記単一データ値に適用された同じメトリック・アルゴリズムの値及び前記第２のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも１つの類似性値（４２、４６）と、
・前記メトリック値の集合内のそれぞれのメトリック値、並びに、前記単一データ値に適用された同じメトリック・アルゴリズムの値及び前記第２のデータ・セットに適用された同じメトリック・アルゴリズムの値のうちの少なくとも一方に基づく、少なくとも１つの信頼性値（４４、４８）と、
を提供する、請求項１に記載の方法。
前記各々のメトリック・アルゴリズム（２２、２４、２６、２８）が、
第１の類似性値（４２）を、前記第１のデータ・セット（１２、１４、１６、１８）の前記それぞれのメトリック値（１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１６２８、１８２２、１８２４、１８２６、１８２８）、及び前記第２のデータ・セット（１２、１４、１６、１８）に適用された同じメトリック・アルゴリズム（２２、２４、２６、２８）のメトリック値（１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１６２８、１８２２、１８２４、１８２６、１８２８）に基づいて計算するための第１の類似性関数（３２）と、
前記メトリック・アルゴリズム（２２、２４、２６、２８）が前記第１のデータ・セット（１２、１４、１６、１８）の性質をどの程度良く反映しているかを示す第１の信頼性値（４４）を、前記第１のデータ・セット（１２、１４、１６、１８）に基づいて計算するための第１の信頼性関数（３４）と、
を少なくとも用いる、請求項２に記載の方法。
前記各々のメトリック・アルゴリズム（２２、２４、２６、２８）が、
第２の類似性値（４６）を、前記第１のデータ・セット（１２、１４、１６、１８）の前記それぞれのメトリック値（１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１６２８、１８２２、１８２４、１８２６、１８２８）、及び前記単一データ値（１２’）に適用された同じメトリック・アルゴリズム（２２、２４、２６、２８）のメトリック値（１２２２、１２２４、１２２６、１２２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１６２８、１８２２、１８２４、１８２６、１８２８）に基づいて計算するための第２の類似性関数（３６）と、
前記メトリック・アルゴリズム（２２、２４、２６、２８）が前記単一データ値（１２’）の性質をどの程度良く良好に反映しているかを示す第２の信頼性値（４８）を、前記第１のデータ・セット（１２、１４、１６、１８）の前記それぞれのメトリック値（１２２２、１２２４、１２２６、１２２８、１２’２２、１２’２４、１２’２６、１２’２８、１４２２、１４２４、１４２６、１４２８、１６２２、１６２４、１６２６、１６２８、１８２２、１８２４、１８２６、１８２８）に基づいて計算するための第２の信頼性関数（３８）と、
を、少なくとも用いる、請求項３に記載の方法。
前記コンピュータが、前記第１のデータ・セット（１２、１４、１６、１８）と前記第２のデータ・セット（１２、１４、１６、１８）との前記類似性、及び、前記第１のデータ・セットと前記単一データ値（１２’）との前記類似性のうちの少なくとも一方を決定するために、前記少なくとも１つのメトリック・アルゴリズム（２２、２４、２６、２８）により提供される類似性値（４２、４６）の加重平均を計算するステップと、
前記コンピュータが、前記第１のデータ・セット（１２、１４、１６、１８）と前記第２のデータ・セット（１２、１４、１６、１８）との前記類似性を決定するための重みとして、少なくとも前記第１の信頼性値（４４）を用いるステップと、
前記コンピュータが、前記第１のデータ・セット（１２、１４、１６、１８）と前記単一データ値（１２’）との前記類似性を決定するための重みとして、少なくとも前記第２の信頼性値（４８）を用いるステップと、
を含む、請求項４に記載の方法。
前記第１の特性に関連付けられた前記メトリック・アルゴリズム（２２、２４、２６、２８）は、一般統計量メトリック・アルゴリズム（２２）、最頻形式メトリック・アルゴリズム（２４）、最頻単語メトリック・アルゴリズム（２６）、ｎグラム・メトリック・アルゴリズム（２８）、及びニューラル・ネットワークに基づくメトリック・アルゴリズムのうちの少なくとも１つを含む、請求項５に記載の方法。
前記第１のデータ・セット（１２、１４、１６、１８）に関連付けられた前記第１の特性（２０．１、２０．２、２０．３、２０．４）と前記第２のデータ・セット（１２、１４、１６、１８）に関連付けられた前記第２の特性とが異なるメトリック・アルゴリズム（２２、２４、２６、２８）を含んでいる場合に、共通のメトリック・アルゴリズム（２２、２４、２６、２８）及び前記それぞれのメトリック値が類似性の計算に用いられる、請求項６に記載の方法。
前記コンピュータが、前記第１の特性（２０．１、２０．２、２０．３、２０．４）をメタデータ・リポジトリ内に格納することを含む、請求項７に記載の方法。
前記コンピュータが、前記第１及び第２の特性（２０．１、２０．２、２０．３、２０．４）に基づいて、前記第１のデータ・セット（１２、１４、１６、１８）及び前記第２のデータ・セット（１２、１４、１６、１８）のうちの少なくとも一方の領域を決定することを含む、請求項８に記載の方法。
前記コンピュータが、前記第１のデータ・セットの領域に関する情報を受け取ることと、前記第２のデータ・セット（１２、１４、１６、１８）が同じ領域に属するか否かを、前記決定された類似性及び前記決定された信頼性のうちの少なくとも一方に基づいて決定することとを含む、請求項９に記載の方法。
前記コンピュータが、前記第２の類似性値（４６）が所定の条件を満たさない場合に、前記第２の類似性値（４６）に基づいて、前記単一データ値（１２’）が前記第１のデータ・セット（１２、１４、１６、１８）の前記領域と矛盾すると決定するステップ、及び、
前記コンピュータが、前記第２の類似性値（４６）が所定の条件を満たす場合に、前記第２の類似性値（４６）に基づいて、前記単一データ値（１２’）が前記第１のデータ・セット（１２、１４、１６、１８）の前記領域と矛盾しないと決定するステップ
のうちの少なくとも一方を含む、請求項１０に記載の方法。
前記コンピュータが、前記第１のデータ・セットを、前記第１の特性（２０．１、２０．２、２０．３、２０．４）に基づいて、データ変換におけるマッピング候補として検出することを含む、請求項１乃至請求項１１のいずれか１項に記載の方法。
データ・セットを取り扱うための装置であって、
第１のデータ・セット（１２、１４、１６、１８）に関連付けられた第１の特性（２０．１、２０．２、２０．３、２０．４）、単一データ値（１２’）、及び、第２のデータ・セット（１２、１４、１６、１８）に関連付けられた第２の特性（２０．１、２０．２、２０．３、２０．４）を提供する手段であって、前記提供された特性が、前記第１のデータ・セット（１２、１４、１６、１８）、前記第２のデータ・セット（１２、１４、１６、１８）及び前記単一データ値（１２’）の実行可能な比較を可能にする、手段（２０）と、
・前記第１及び第２の特性に基づく、前記第１のデータ・セット（１２、１４、１６、１８）と前記第２のデータ・セット（１２、１４、１６、１８）との類似性、及び
・前記第１の特性及び前記単一データ値に基づく、前記第１のデータ・セット（１２、１４、１６、１８）と前記単一データ値（１２’）との類似性、
のうちの少なくとも１つと、
・前記第１の特性に基づく、前記第１の特性が前記第１のデータ・セットの性質をどの程度良く反映しているかを示す信頼性、及び
・前記第１の特性及び前記単一データ値に基づく、前記第１のデータ・セットと前記単一データ値（１２’）との前記類似性が前記単一データ値の性質をどの程度良く反映しているかを示す信頼性
のうちの少なくとも１つを計算するための手段（３０）と、
を含む、装置。
請求項１乃至請求項１２のいずれか１項に記載の方法の各ステップをコンピュータに実行させる、データ処理プログラム。
請求項１４記載のデータ処理プログラムをコンピュータ可読媒体に記録した、記録媒体。