JP2022096632A

JP2022096632A - コンピュータ実装方法、コンピュータシステムおよびコンピュータプログラム（データ属性に基づくデータセットのランク付け）

Info

Publication number: JP2022096632A
Application number: JP2021202946A
Authority: JP
Inventors: マンジットシングソドヒ; Manjit Singh Sodhi; カラプリヤカンナン; Kannan Kalapriya; ポーニマイエンガー; Iyengar Poornima
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-12-17
Filing date: 2021-12-14
Publication date: 2022-06-29
Also published as: GB202117333D0; CN114647627A; US20220197914A1; GB2603609A; US11436237B2

Abstract

【課題】データセット値は使用事例により異なる可能性がありデータセット価値を評価しランク付けする方法、システム及びプログラムを提供する。【解決手段】コンピュータは、ユーザデータ嗜好を示すドキュメントからデータセット属性を識別し、関連する複数のデータセットに関するメタデータセットを生成する。予め定められた適合性閾値を超えるフィールド適合値を有する候補データセットを決定する。フィールド適合値は、データセットに関連するフィールドとデータフィールドとの類似度を表す。ターゲット属性に関して関連するメタデータセットを候補データセット毎に査定する。関連するデータセットにターゲットデータセット属性を示すコンテンツが含まれる可能性を示す比較される属性スコアを候補データセット毎に生成する。比較される属性スコア別にソートされる候補データセットのリストを生成する。【選択図】図２

Description

本発明は概して、データセット分析の分野、より具体的には、コンピュータデータセット評価に関連する。

データセットは、多くの実世界の状況およびシミュレートされた状況に関する質問に対する回答を提供するために様々なコンピュータシステムにより使用され得るデータのグループである。多くの場合、データセットは、これまでのトランザクションに関する情報、または、同様の現在および将来のトランザクションに関する予測が行われ得る他の過去の情報を含む。幾つかのドメインでは、データセットは、システム動作の副産物としてユーザシステムにより生成され、将来の使用が維持される。他のドメインでは、データセット、特に、大きいデータセットまたはカスタマイズされたデータセットは、ユーザの負担でサードパーティにより提供される場合がある。人工知能（ＡＩ）システムは、データセットに含まれるデータ内のパターンを識別して、他のやり方では予測しづらいことが多い傾向を明らかにすることができる。データセットは、コンテンツの面で大きく異なる可能性があるので、特定のユーザにとっては幾つかのデータセットが他のものより有用である。

データセットの値は、使用事例ごとに異なる可能性がある。データの使用目的が分かっている場合は、データセットの価値を評価すること、および、評価されたデータセットをランク付けすることができる。

一実施形態によれば、データセット属性に従って複数のデータセットをソートするためのコンピュータ実装方法が、コンピュータが一組のプロセスドキュメントから一組のターゲットデータフィールドを識別する段階であって、プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、段階を含む。コンピュータは、一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別し、データ使用ドキュメントは、ユーザのデータスコープ嗜好を示す。コンピュータは、関連付けられる複数のデータセットに関する一群のメタデータセットを生成する。コンピュータは、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定し、フィールド適合性値は、当該データセットに関連付けられる一組のフィールドと、一組のターゲットデータフィールドとの類似度を表す。コンピュータは、ターゲット属性に関して、関連付けられるメタデータセットを候補データセットごとに査定する。コンピュータは、関連付けられるデータセットに当該ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成する。コンピュータは、比較される属性スコア別にソートされる当該候補データセットのリストを生成する。

本発明の態様によれば、データ使用ドキュメントは、ビジネスプロセス実行言語（ＢＥＰＬ）および統一モデリング言語（ＵＭＬ）で構成されるリストから選択される形式の情報を含む。本発明の態様によれば、データターゲット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、当該プロセスドキュメントの要素から抽出される。本発明の態様によれば、比較される属性スコアが最も高い候補データセットが、選択されるデータセットとして指定される。本発明の態様によれば、当該選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立する段階と、検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられるメタデータセットにおける過去の使用フィールドを更新する段階と。本発明の態様によれば、ランク付けは、過去の使用フィールド値に少なくとも部分的に基づいている。本発明の態様によれば、比較される属性スコアは、当該ターゲットデータセット属性の各々に関連付けられる、関連付けられる望ましさの値に少なくとも部分的に基づいている。本発明の態様によれば、メタデータセットは、ドメイン、性別、年齢層、地理的分布、人口統計学的分布、数値の統計学的範囲、および適用可能性のコンテキストで構成されるリストから選択される情報を含む。

別の実施形態によれば、複数のデータセットをランク付けするシステムが提供される。このシステムは、プログラム命令が共に具現化されたコンピュータ可読記憶媒体を有するコンピュータシステムを備え、コンピュータで実行可能なプログラム命令は、コンピュータに、一組のプロセスドキュメントから一組のターゲットデータフィールドを識別することであって、当該プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、識別することと、一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別することであって、当該データ使用ドキュメントは、当該ユーザに関するデータスコープ嗜好を示す、識別することと、関連付けられる複数のデータセットに関する複数のメタデータセットを生成することと、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定することであって、当該フィールド適合性値は、当該データセットに関連付けられる一組のフィールドと、一組のターゲットデータフィールドとの類似度を表す、決定することと、ターゲット属性に関して、関連付けられるメタデータセットを候補データセットごとに査定し、かつ、関連付けられるデータセットに当該ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成することと、当該比較される属性スコア別にソートされる当該候補データセットのリストを生成することとを行わせる。

別の実施形態によれば、複数のデータセットをランク付けするコンピュータプログラム製品が提供される。このコンピュータプログラム製品は、プログラム命令が共に具現化されたコンピュータ可読記憶媒体を備え、コンピュータで実行可能なプログラム命令は、コンピュータに、コンピュータを使用して、ユーザのデータフィールド嗜好を示す一組のプロセスドキュメントから一組のデータターゲット属性を識別することと、当該コンピュータを使用して、ユーザのデータスコープ嗜好を示す一組のデータ使用ドキュメントから一組のデータセットターゲット属性を識別することと、当該コンピュータを使用して、関連付けられる複数のデータセットに関する複数のメタデータセットを生成することと、当該コンピュータを使用して、予め定められた適合性閾値を超えるフィールド適合性値を有する上位ｋ個の候補データセットを決定することと、当該コンピュータを使用して、ターゲット属性に関して、関連付けられるメタデータセットを候補データセットごとに査定し、かつ、当該コンピュータを使用して、比較される属性スコアを候補データセットごとに生成することと、当該コンピュータを使用して、当該比較される属性スコアに少なくとも部分的に基づいて当該候補データセットをランク付けすることとを行わせる。

所与のデータセットの値は、データセット記録フィールドコンテンツと、含まれる情報の範囲とを含む、様々な要因に基づいている可能性がある。例えば、多くのデータ分析システムには、有意な出力を提供すべく、特定の種類の情報（例えば、特定のフィールド）が必要であり、適切な情報の量がより多い（例えば、所望のデータフィールドの数がより多い）データセットが、必要とされるデータフィールドが少ないデータセットよりも優先される。同様に、データ分析システムには、有意な出力を提供すべく、システムに提示されている質問に適したデータが必要であり、所与のデータセットの、使用目的範囲（例えば、投げ掛けられることが予想される質問）に対する関連性が高いほど、データセット値が高くなる。

本発明の態様は、ビジネスアプリケーションを伴うものを含めて、ユーザのデータ要件（ターゲットデータフィールドおよびターゲットデータセット属性を含む）に適合しており、データセット内のデータから導出されるメタデータと照合されるべきである。本発明の態様によれば、メタデータは、データコンテンツの人口統計およびデータコンテンツの統計学的性質を記述して、データセットコンテンツを表すべきである。

本発明の態様は、オントロジの使用と、キーと値のペアの使用とを含む様々な方法を通じて、データのフィールドを意味と関連付ける。

本発明の態様は第１に、ターゲットデータセット要件と、メタデータとのその適合とに基づいてデータセットに関するスコアを提供するグループを選択し、それにより、企業は、どのデータセットが自らの要件により適しているかを評価することができる。

発明の態様によれば、導出されるメタデータは、統計学的性質（例えば、分布のタイプ、平均、分散および関連する性質、任意の相互関係、並びに、それが時系列データを有するかどうか）と、様々なフィールドおよびそれらに関連する意味／意味論（例えば、貸付承認データセットでは、「配偶者」が「妻」および「夫」と同様である）と、「．ＣＳＶ」ファイルおよび関連付けられるスキーマが分かっている場合は、スキーマに適した様々な意味（例えば、新しいマーケティングチャネルの開設に関連するフィールドは、スポーツイベントに関連付けられるフィールドの識別に使用される同様の名前のフィールドとは異なる特定の意味を持つ場合がある）が、メタデータとして記録され得ることと、識別された個人により付与される同意および許可に従って使用される場合は、個人を識別できる情報（例えば、電子メール、電話番号、住所／詳細な連絡先）と、（例えば、データセット使用の歴史的なマイニングと、それが共に使用された他のデータセットの識別とによる）以前のデータセット使用に関連するフィールドと、導出されるメタデータが、ドメイン、性別、年齢層、地理的分布のようなコンテンツ表現に関する情報も含む（これは、データセットが特定の年齢層、銀行ドメインに対して、または特定の地域などに対して適用可能であることを示すことができる）こととを含む。

本発明の態様は、（例えば、データセットメタデータで特徴付けられるように）データセットコンテンツに基づいてデータセット値を決定する。本発明の態様によれば、メタデータは、データセットのコンテンツベースの特性を示す記述的情報を含む。本発明の態様は、ビジネスのデータ要件を識別する。本発明の態様は、データセットをランク付けし、メタデータおよびその値の範囲の各々に関する属性および範囲値に基づいて、関連性スコアを提供する。本発明の態様は、ビジネス要件とデータのコンテンツとに基づいてデータセットに関する値を決定するための体系的な方法を定式化および導出する。本発明の態様は、スコアを使用し、メタデータのファセットごとにランク付けを導出する。本発明の態様は、データセット値を使用して、ビジネス要件に関して２つのデータセットを比較する。本発明の態様は、データのコンテンツに基づくデータセットの検索メカニズムを有効にする。本発明の態様は、異なるコンテキストにおけるデータ使用の履歴を使用してメタデータを生成し、それらを使用して、検索イベントが実施されるときにビジネスコンテキストを識別する。本発明の態様は、一組のビジネス要件の入力に基づいてデータセットのコーパスを検索し、適合性において最も良く適合するものという観点から結果をランク付けする。本発明の態様によれば、（例えば、必要とされるビジネスプロセスをサポートするための）ターゲットデータフィールドは、標準形式（例えば、抽出可能なアクティビティ、動作主体、順序付け／シーケンスを提供できるビジネスプロセス実行言語（ＢＰＥＬ）、および、関連するソフトウェア工学アーチファクトに関する図を提供する統一モデリング言語（ＵＭＬ））を使用した様々な図で定義される。本発明の態様によれば、ＵＭＬドキュメントは、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図を含むことができる。

本発明の態様によれば、ＢＰＥＬ図からのアクティビティをＵＭＬアクティビティ図に調和させ、クラスレベルのコンポーネントを抽出するために使用することができる。本発明の態様によれば、クラスレベルのコンポーネントは、フィールドの全ての要件を与えることができる。

本発明の態様は、ビジネス要件を導出することができる。本発明の態様は、データセットおよびメタデータを評価することができる。本発明の態様は、データセット、データ値、およびデータファセットをランク付けすることができる。本発明の態様は、アンケート（または、データ要件を示す他のデータ使用ドキュメント）を使用して、ビジネスのためのモバイルまたはオンラインコマースチャネルを開設する方法に関する情報を提供することに所与のデータセットが関連しているかどうかを判断するのに役立つことができる。

幾つかの属性を持つコンテンツを有するデータセットは他のものより有用である場合があるので、システムの態様（例えば、ユーザデータ要件アンケートおよび他のデータ使用ドキュメントを含む）は、ユーザがコンテンツとして必要としているものを識別するのに役立つ。本発明の態様は、どのデータセットが様々なユーザ目標（例えば、クーポンを使用した新しい茶製品を発売するなど）に良く適合するかを示す、データの関連するコンテキストを識別する。

本発明の幾つかの態様によれば、ＰＤＡＭは、アクティビティ図およびクラス図ロケータの位置を特定する「発見ユニット」を含む。本発明の幾つかの態様によれば、ＰＤＡＭは、エンティティ抽出器およびアクティビティ抽出器を含む。

本発明の幾つかの態様によれば、属性という用語は、ファセットという単語と同義で使用されてよい。本発明の態様によれば、ＣＡＡＭは、オントロジマッピングエンジンを含む。本発明の態様によれば、ＣＡＡＭは、データセットがビジネスニーズに適合しているかどうかを判断する態様を含む。本発明の態様によれば、ＨＵＬＵＭ１２４は、データ使用メタデータ抽出器と、歴史的なデータセット使用を示し、かつ、選択されるデータセットが共に使用された他のデータセットを識別する、データセットの過去の使用ログとを含む。

添付図面に関連して読むべき例示的な実施形態の以下の詳細な説明からは、本発明のこれらおよび他の目的、特徴、および利点が明らかになろう。図面の様々な特徴は縮尺通りではない。なぜなら、これらの図は、当業者が詳細な説明と併せて本発明を理解するのを容易にするにあたって明確にするためのものだからである。図面についての記載は以下の通りである。

本発明の実施形態に係る、データセットコンテンツおよび所望のデータ属性に従って複数のデータセットをランク付けするコンピュータ実装方法のためのシステムの概要を示す概略ブロック図である。

本発明に従って複数のデータセットをランク付けするコンピュータ実装方法のためのシステムの、図１に示すシステムを使用して実装される方法を示すフローチャートである。

図１に示すシステムの態様の代替図である。

本発明の実施形態に係る、一組のランク付けされたデータセットを提供するために使用されている、図１に示すシステムの態様の概略図である。

図１に示すシステムの概略的な概要である。ここでは、システムの態様が複数のステージに配置されている。

方法のリストおよび関連する詳細を含む、図１に示すシステムの代替図である。ここでは、システムの態様がワークフローのアウトラインに従って配置されている。

本発明の実施形態に従って生成される「データ値」エントリおよび「データランク付け」エントリの態様の概略図である。

本発明の実施形態に係る、例示的なビジネスデータ使用アンケートおよび関連付けられるサンプル回答である。

図１に示す１つまたは複数のコンピュータまたはデバイスに完全または部分的に組み込まれてよく、かつ、図１に示すシステムおよび方法と連携する、本開示のある実施形態に係るコンピュータシステムを示す概略ブロック図である。

本発明のある実施形態に係るクラウドコンピューティング環境を示す。

本発明のある実施形態に係る抽象化モデル層を示す。

添付図面を参照する以下の説明は、特許請求の範囲およびその同等物で定義されるような本発明の例示的な実施形態を包括的な理解を支援するために提供される。その説明は、そうした理解を支援するための様々な具体的な詳細を含むが、これらは単なる例示的なものとして見なされるべきである。従って、当業者は、本明細書で説明する実施形態の様々な変更および修正が、本発明の範囲および主旨から逸脱することなく行われ得ることを認識するであろう。更には、明確かつ簡潔にするために、周知の機能および構造の説明が省略される場合がある。

以下の説明および特許請求の範囲で使用される用語および単語は、書誌的な意味に限定されず、本発明の明確で一貫性のある理解を可能にするために使用されるに過ぎない。従って、本発明の例示的な実施形態の以下の説明が、例示のみを目的として提供されるものであり、添付の特許請求の範囲およびその同等物で定義されるような本発明の限定を目的として提供されるものではないことが、当業者にとって明らかなはずである。

文脈での明確な指示がない限り、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」には複数の指示対象が含まれることを理解されたい。従って、文脈での明確な指示がない限り、例えば、「１人の参加者」への言及は、そのような参加者のうちの１人または複数への言及を含む。

ここで、これらの図の一般参照の組み合わせと、図１および図２の特別参照とにより、任意選択的に共有記憶装置１０４を有するサーバコンピュータ１０２により実行されるようなデータセットコンテンツに従って複数のデータセットをランク付けするコンピュータ実装方法のためのシステム１００の概要。図１を引き続き参照すると、サーバコンピュータは、所望のデータセットデータフィールドを示すプロセスドキュメント１０６（例えば、ＢＰＥＬ、ＵＭＬ図など）のソースと通信している。サーバコンピュータ１０２は、既知のＵＭＬ処理および査定ツール（図識別子および他の同様のＵＭＬコンテンツ抽出器を含む）およびＢＰＥＬリーダを使用してドキュメントをレビューおよびマイニングしてターゲットデータフィールドを識別する、プロセスドキュメンテーション分析モジュール（ＰＤＡＭ）１１２を含む。これらのターゲットデータフィールドは、所与のユーザのニーズに最も良く適合するデータの形式に関する情報を提供する。一例として、ユーザは、ビジネスプロセス実行言語（ＢＰＥＬ）で書き込まれたドキュメントを提供してよく、この形式のドキュメントは、ユーザのビジネスの運用にとって重要な、様々なアクティビティ、動作主体、およびプロセスシーケンスを示すことができ、これらの態様は、ユーザのデータニーズを理解する手助けをするために抽出され得る。別の例として、ユーザは、統一モデリング言語（ＵＭＬ）または同様のモデリング言語を使用して提示されるドキュメントを提供してよく、この形式のドキュメントは、クラス図、アクティビティ図、およびシーケンス図を含む、ユーザの処理システムの運用にとって重要なソフトウェアアーチファクトに関する洞察を提供することができる。ＢＰＥＬドキュメントからのアクティビティをＵＭＬ図に調和させ、ユーザシステムのクラスレベルのコンポーネントを抽出するために使用することができる。サーバコンピュータ１０２は、抽出されたクラスレベルのコンポーネントを使用して、データフィールド要件を決定する。

サーバコンピュータ１０２は、所望のデータセット属性を示すデータ使用ドキュメント１０８（例えば、データ要件アンケートなど）のソースとも通信している。サーバコンピュータ１０２は、１つまたは複数のデータセット１１０のソースとも通信している。

サーバコンピュータ１０２は、データ使用ドキュメントを査定してターゲットデータセット属性を識別するためのデータ使用ドキュメント分析モジュール（ＤＵＤＡＭ）１１４を含む。ユーザは、様々なやり方で（例えば、詳細なアンケートの応答、予想される質問のグループの提供、対象となるトピックの指定などを通じて）予期されるデータ使用に関する情報を提供してよく、この情報は、データコンテンツのどの範囲がユーザのニーズに最も良く適合するかを示す。本発明の態様によれば、この情報は、ビジネス要件に関する入力を提供し、その結果、適合するデータコンテンツは、様々なデータセットで遭遇したときに、そのようなものとして識別されてよい。例えば、ユーザが所与の地域における特定の製品のマーケティングに関する洞察を得たい場合は、その地域におけるその製品の販売に関する情報を含むデータセットは、異なる地域におけるその製品の販売情報のみを含んだデータセットより有益である可能性が高いであろう。本発明の態様によれば、製品に関する一般的な販売情報もこのユーザにとって有益である場合があり、ユーザデータ使用要件の問い合わせが、このレベルの詳細を収集するように構築されてよい。本発明の態様によれば、ユーザデータ使用嗜好に関してシステム１００を訓練すべく、データ範囲に関する多種多様な嗜好がユーザから収集され得る。

サーバコンピュータ１０２は、（例えば、オントロジエンジン、統計学的データプロセッサ、または同様の既知のツール）を使用して、メタデータを識別するデータセット属性を抽出および生成する、メタデータ生成モジュール（ＭＧＭ）１１６を含む。例えば、サーバコンピュータ１０２は、ドメインに関する機械可読ステートメント（例えば、様々なドメイン概念およびそれらの間の関係を記述する）を含むドメイン固有のオントロジを使用して、所与のデータセット内のフィールドに対して意味を割り当ててよい。ＭＧＭ１１６は、フィールドの意味を示す単純なキーと値のペアを受信してもよい。当業者の判断に従って選択された他の意味の割り当てアレンジメントで十分な場合もある。生成されたメタデータは、所与のデータセットに含まれるデータに関する多くの種類の有用な情報を含むことができる。導出されるメタデータは、例えば、含まれる分布のタイプ、平均値、データ値分散など、データの統計学的性質を含んでよい。導出されるメタデータは、時系列データ、他の同様のデータフィールド相互関係、および様々な他のデータフィールド相互関係の表示を含んでもよい。本発明の態様によれば、導出されるメタデータは、データが以前どのように使用されたか、および、それが他のどの問い合わせをサポートしたかに関する（既知のデータマイニング技法で導出されるような）情報を含むこともできる。導出されるメタデータは、（元のコンテンツプロバイダの肯定的な同意が確認された場合に、）提供される確認済みの同意に従って、製品のマーケティングおよび新しいマーケティングチャネルの開設に有用であり得るか、そうでなければ許容可能であり得る、個人を識別できる情報を提供してもよい。導出されるメタデータは、トピックのドメイン、集約された性別、年齢層、および地理的分布などを含む、データ内で見られるコンテンツの人口統計表現に関する情報を含んでよい。所与のデータセットの導出されるメタデータは、データセットコンテンツの要約を提示し、データセットが良く適しているデータ使用の表示を提供する。例えば、導出されるメタデータは、所与のデータセットが特定のドメイン、特定の人口統計範囲、および地理的関連の質問などに関する質問に回答するのに良く適していることを示してよい。データセットが所与のデータ使用に良く適しているほど、それらのデータ使用目標を持つユーザにとってデータセットが有する値は高くなる。

サーバコンピュータ１０２は、予め定められた適合性閾値を超えるフィールド適合性値（ＦＳＶ）を有するデータセットを識別するデータセットフィールド適合性査定モジュール（ＤＦＳＡＭ）１１８を含む。ＦＳＶは、ＰＤＡＭ１１２により決定されるターゲットデータフィールドに対して、所与のデータセット１１０に関する導出されるメタデータで示されるフィールドにより計算されて、データセットに含まれるフィールドと、好ましいターゲットデータフィールドとの一致の数を決定する。ＦＳＶは、例えば、ターゲットデータフィールドとの意味的類似性が８５％または当業者の判断に従って選択される何らかの他の値を超えるクラスラベルの数で測定され得る、データセットフィールドとターゲットデータフィールドとの類似度を示す。下流の計算効率を高めるために、ＤＦＳＡＭ１１８は、ＦＳＶが適合性閾値を超える上位ｋ個の候補データセットを決定し、それらの候補データセットを比較データセットとして指定する。

サーバコンピュータ１０２は、ＤＦＳＡＭ１１８により識別される比較データセットのデータセットメタデータを比較して、それぞれの関連付けられた比較されるデータセットにターゲットデータセット属性を示すコンテンツが含まれる可能性を表す、比較される属性スコア値（ＣＡＳＶ）を比較されるデータセットごとに生成する、比較される属性査定モジュール（ＣＡＡＭ）１２０を含む。ＣＡＳＶは、例えば、当該ターゲットデータセット属性との意味的類似性が８５％（または、当業者の判断に従って選択される何らかの他の値）を超えるデータセット属性の数を決定することにより決定される。サーバコンピュータ１０２は、ターゲット属性に従って候補データセットメタデータセットをランク付けし、かつ、スコア値により索引付けされる、候補データセットのランク付けリストを生成する、候補データセットランク付けモジュール（ＣＤＲＭ）１２２を含む。なお、様々なデータセット属性が、異なるデータ使用ドキュメント１０８に適用されると異なる影響重みを有してよく、これらの様々な属性の影響重みは、決定されたメタデータに含まれる様々なフィールドまたは他の属性に関連付けられるデータセット属性の望ましさの値として表されてよい。サーバコンピュータ１０２は、比較される属性スコア値が最も高い比較されるデータセットを、選択されるデータセットとして指定する、最上位のデータセットセレクタを含む。

一例として、本発明の態様によれば、２つの比較データセットに関するメタデータの査定は、データセットにターゲットデータセット属性（例えば、「データセット値範囲」および「データセット完全性」）を示すコンテンツが含まれることを示してよい。「データセット値範囲」属性が有する、ユーザにより（例えば、データ使用ドキュメントを介して）示されるデータセット属性の望ましさの値が、「データセット完全性」属性より高い（例えば、所与のユーザにとってより有用な）場合は、「データセット値範囲」スコアのより高い（例えば、値の範囲がより広い）データセットが、値範囲のスコア値のより低い（例えば、値の範囲がより狭い）データセットよりも、関連付けられるユーザのニーズおよび嗜好を満たすのにより適しているとランク付けされる。同じ例において、「データセット完全性」スコアのより高いデータセットは、より適しているとランク付けされない場合がある。なぜなら、「データセット完全性」属性は、「データセット値範囲」ほど重要でないからである。この例では、重み付けの低い「データセット完全性」属性に関するスコアが他のデータセットと比較して相対的に高いだけでは、関連付けられるデータセットに関するランク付けを確実に高くするのに十分ではない。ただし、この例では、相対的に高い「データセット完全性」属性スコアに関連付けられるデータセットが、他の比較されるデータセットの平均属性スコア値より高い、平均してより高い一組の属性スコアを有することが示される場合は、そのデータセットは、ＣＤＲＭ１２２により上位にランク付けされ得ることが依然として考えられる。

サーバコンピュータ１０２は、過去のデータフィールドを更新する過去の使用ログ更新モジュール（ＨＵＬＵＭ）１２４も含み、その結果、選択されるデータセットの将来の使用が歴史的なコンテキストにより提供されるより高い精度で評価される。本発明の態様によれば、メタデータセットにおける過去の使用フィールドは、検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられ、データセットが選択されるデータセットになるたびに、検索パラメータで更新される。なお、本発明の態様によれば、異なるビジネスアプリケーションにおけるデータおよびその過去の利用が（例えば、ＨＵＬＵＭ１２４、および、選択されるデータセットメタデータおよび過去の使用更新モジュール１２６により）追跡されてよく、（図４の４４０に概略的に示すように）豊富なメタデータを開発するために使用されてよい。例えば、ビジネスアプリケーションの進行中のデータ使用が、データ使用の関連付けられるドメインと利用頻度とを識別するために使用され得る。これは、（例えば、ＨＵＬＵＭ１２４、および、選択されるデータセットメタデータおよび過去の使用更新モジュール１２６を介して）メタデータとしてデータセットに戻されてよく、将来の検索は、この拡大し続けるメタデータコンテンツの集合に基づいたものであってよい。データセットコンテンツを使用してデータセットを検索することが知られている。本発明の態様によれば、ファセット（例えば、ターゲットデータセット属性）がデータセット検索基準として含まれる。例えば、「空集合エントリの数」と呼ばれるファセットが、所与のデータセットの各記録に存在する空（例えば、空集合）フィールドの数を捕獲する場合がある。本発明の態様によれば、メタデータ内で識別されるファセットを有することで、ユーザは、そのファセットを示すデータセットへの嗜好を示す（例えば、高い属性の望ましさの値を示す）ことができる。例えば、所与のユーザのニーズが空集合記録エントリの数が少ないデータセットへの嗜好を示している場合は、空集合記録エントリの数が相対的に少ないデータセットは、空集合記録エントリがより多いデータセットと比べて、ＣＤＲＭ１２２によってより上位に（例えば、よりユーザに適しており、データ要件のニーズとユーザの嗜好とを満たす可能性がより高いと）ランク付けされる。本発明の態様によれば、特定のターゲットデータセット属性（例えば、ファセット）を、選択されるデータセットとしてデータセットを識別するための要件として、直接識別することもできる。

ここで図２を特別参照し、他の図を一般参照すると、本発明の態様に係るデータセットコンテンツおよび所望のデータ属性に従って複数のデータセットをランク付けする方法が示されている。サーバコンピュータ１０２は、ブロック２０２で、ＰＤＡＭ１１２を介して、（上述のように）図識別子、ＢＰＥＬリーダ、およびＵＭＬ査定ツールを使用して一組のプロセスドキュメントから一組のターゲットデータフィールドを識別して、ドキュメントをレビューおよびマイニングして、ターゲットデータフィールドを識別する。

サーバコンピュータ１０２は、ブロック２０４で、データ使用ドキュメント分析モジュールＤＵＤＡＭ１１４を介して、（上述のように）一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別する。サーバコンピュータ１０２は、ブロック２０６で、メタデータ生成モジュール（ＭＧＭ）１１６を介して、関連付けられる複数のデータセットに関する複数のメタデータセットと、関連付けられる複数のデータセットとを生成する。サーバコンピュータ１０２は、ブロック２０８で、ＤＦＳＡＭ１１８を介して、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定し、フィールド適合性値（ＦＳＶ）は、（導出されるメタデータ情報を介して）当該データセットに関連付けられる一組のフィールドと、一組のターゲットデータフィールドとの類似度を表す。サーバコンピュータ１０２は、ブロック２１０でＣＡＡＭ１２０を介して、各比較データセットがターゲットデータセット属性を示す可能性を決定する。

サーバコンピュータ１０２は、ブロック２１２で、ＣＤＲＭ１２２を介して、当該比較される属性スコア値に少なくとも部分的に基づいて、候補データセットをランク付けする。サーバコンピュータ１０２は、ブロック２１４およびブロック２１６で、選択されるデータセットメタデータおよび過去の使用更新モジュール１２６を介して、選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立し、検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられるメタデータセットにおける過去の使用フィールドを更新する。サーバコンピュータ１０２は、ブロック２１８で、選択されるデータセットプレゼンタ１２８を介して、選択されるデータセット２１８を提示する。本発明の態様によれば、検索コンテキスト値は、特定のデータセットが以前に使用されたドメインに関する情報を提供する数値コードであってよい。検索コンテキスト値は、構造化されていないテキスト文字列であってもよく、提供されるデータセットに関する他の以前の使用（共同で使用される他のデータセットを含む）の態様を表す可能性がある。

ここで図３Ａを参照すると、システム１００の大まかな概要３１０が示されている。特に、ビジネス要件、データセット、およびメタデータが、処理のためにデータ値エンジンに入力として提供される。本発明の態様によれば、データ値エンジンは、ランク付けされるデータセット、データ値、およびファセットのランク付けを出力として提供する。本発明の態様によれば、メタデータは、所与のデータセットのデータに関する情報（例えば、所与のデータセットに関連付けられるドメインなど）を含む。メタデータは、データと一緒に複数の異なる形で記憶され得る。多くのオブジェクト記憶アレンジメントでは、データがオブジェクトとして記憶され、メタデータが、データオブジェクトに関連付けられるキーと値のペアとして記憶される。メタデータは主に、様々なデータオブジェクトに関する更なる洞察および情報を提供するデータエキスパートからの入力を用いて、データ自体の中からまたは手動で識別される（例えば、当業者により選択される分析アルゴリズムまたは同様のルーチンなどの自動化メカニズムを用いて抽出される）。本発明の態様によれば、スコアは、メタデータにおけるファセット（例えば、属性または特徴）の相対的な重要性を表す数値である。ファセットは、自動化を通じて導出されるか、ドメインエキスパートにより提供される入力の一部としてデータセットに追加される、データ性質である。２つのデータセットが利用可能である場合は、アプリケーションの特定の要件により適したデータセットが、スコアのより高いデータセットである。本発明の態様によれば、コンテンツフィールド属性と、好ましいデータセット属性（例えば、ファセット）の存在とに従って、スコアを生成し、データセットをランク付けするのが好ましい。ランク付けによって、全ての特徴の中から、所与のデータセットに関する所与のファセットの相対的な重要性が識別される。ランク付けによって、所与のユーザのデータニーズに関するデータセットの適合性が確立されたときに、様々なファセットの相対的な位置付けも決定される。例えば、「空値」属性に関するデータセットスコアは、関連付けられるデータセットに多くの空集合記録があることを示す。次に、サーバコンピュータ１０２は、スコアを属性ごとに使用し、様々な比較されるデータセット間で、かつ、各データセット内でも、（例えば、ＣＤＲＭ１２２を介して）属性をランク付けする。

ここで図３Ｂを参照すると、使用されているシステム１００の例の概略図３２０が示されている。特に、特定の種類の情報（アンケート内に配置される１つの質問または一群の質問、および他のデータ要件で表される）の要求がデータ値エンジンに渡される。幾つかのデータセット（例えば、「ＨＲデータ」、「顧客データセット」、および「クリック分析」）、および関連付けられるデータセットメタデータも、データ値エンジンに提供される。データ値エンジンは、入力を処理し、提供されるデータセットを適合性に従って評価し、決定された適合性に従ってランク付けされるデータセットのリストを提供する。示されている例では、「ＨＲデータ」データセットが、決定されるデータ値が５０の最上位のデータセットであり、「クリック分析」データセットが、決定されるデータ値が４６の中間ランクのデータセットであり、「顧客」データセットが、決定されるデータ値が３５の最下位のデータセットである。

ここで図４を参照しながら、システムの態様が複数のステージに配置された状態で示される、システム１００の概略的な概要について説明する。特に、第１ステージ４１０は、「ステージ１：ビジネスドキュメンテーションおよびプロセス分析エンジン」と総称される本発明のある実施形態の態様を表す。ここでは、エンティティおよびアクティビティの抽出のために、ＢＰＥＬドキュメント、実装アーチファクト、ＵＭＬ、および様々なコンポーネント図が処理される。第１ステージ４１０に関連付けられる発見ユニットは、入力として提供されるプロセスドキュメントに表されるように、所与のユーザの確立された慣例および要件に従ってシステムアクティビティをサポートするために必要なフィールドの識別に適したアクティビティ図ロケータおよびクラス図ロケータを含む。第２ステージ４２０は、「ステージ２：データセット値評価エンジン」と総称される本発明のある実施形態の態様を表す。ここでは、第１ステージ４１０で識別されるターゲットフィールドと、第３ステージ４３０で識別される（以下でより完全に説明する）データセットターゲット属性（例えば、データセットファセット）とを含む、様々なフィールド要件および所望のデータセット特質が、既知のＮＬＰ、機械学習比較、およびコンピュータ化された分析の他の方法を使用して、提供されるデータセットをそれぞれが記述するメタデータセットと比較される。データセット適合性値はデータセットごとに決定され、データセットはこれらの値に従ってランク付けされる。第３ステージ４３０は、「ステージ３：ビジネスインタラクティブデータセット推奨エンジン」と総称される本発明のある実施形態の態様を表す。ここでは、様々なビジネス要件の質問、関連付けられる回答、および関連するシステムアーチファクトマッピングが、上述のような使用のためにデータセット評価エンジン４２０に渡される。第４ステージ４４０は、「ステージ４：データ使用の履歴」と総称される本発明のある実施形態の態様を表す。ここでは、これまでの記録されたデータセット使用と、その使用を記述する抽出されたメタデータとが、データセット適合性値を決定するときの補足的考慮のために第２ステージ４２０に渡される。特に、第４ステージ４４０の出力は、第２ステージ４２０の評価エンジンがこれまでのデータセット使用および過去のスコア値のメタデータを含むことを可能にすることにより、過去の見通しと、関連付けられるスコア精度の向上とを提供する。このステージは、複数回にわたって使用を繰り返すことでシステムにますます多くの見通しを提供し、使用の増加に伴いシステム１００がより正確になることを可能にする。

ここで図５を参照すると、システム１００の代替図がシステムの態様が例示的なワークフローアウトライン５００に従って配置された状態で示されている。特に、ビジネスアンケート情報およびビジネスプロセス情報が、事業主からアクティビティ識別フェーズに渡される。ここでは、ターゲットデータファセットおよび必要なシステムクラスが識別される。次に、ビジネスメトリックからデータへのコンバータが、ビジネスおよびデータフィールドからの必要なファセットをデータフィールド識別子に提供し、ファセット評定が生成される。ファセット評定はデータセット評定フェーズに渡され、ここでは、データセットランカがデータセットのランク付けを提供する。次に、この情報は出力として事業主に戻される。

ここで図６を参照すると、本発明の実施形態に従って生成される「データ値」エントリおよび「データランク付け」エントリのサンプル実施形態の態様の概略図６００が示されている。特に、エントリは、本発明の態様に従って、データセット値と、関連付けられるデータセットのランク付けとを識別および比較するのに有用な、一組のＪＳＯＮ形式のキーと値のペアリングの表示を提供する。なお、当業者の判断に従って他の形式が選択されてもよい。

ここで図７を参照すると、アカウントの減少を査定している会計シナリオのビジネス要件に関する例示的なアンケート７００（およびサンプル回答）が示されている。サーバコンピュータ１０２は、（例えば、ＤＵＤＡＭ１１４を介して）回答を収集および処理する。アンケートの質問に応答して提供される回答には、関連付けられる企業が収集したがるかもしれない情報の種類が反映される。ビジネスに関連付けられるユーザにより提供される回答は、ターゲットデータセット属性を決定するために使用される。

フローチャートおよびブロック図に関して、本開示の図におけるフローチャートおよびブロック図は、本発明の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の考えられる実装のアーキテクチャ、機能、および運用を示す。この際、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表してよい。幾つかの代替的な実装では、ブロックに記載される機能が、図に記載される順序とは別の順序で行われてよい。例えば、関連する機能に応じて、連続して示される２つのブロックが、実際には、実質的に同時に実行されてもよいし、これらのブロックが、逆の順序で実行される場合があってもよい。ブロック図もしくはフローチャート図またはその両方の各ブロック、並びに、ブロック図もしくはフローチャート図またはその両方におけるブロックの組み合わせが、指定された機能または動作を実行するか、特殊目的ハードウェアとコンピュータ命令との組み合わせを実行する、特殊目的ハードウェアベースのシステムにより実装され得ることにも気が付くであろう。

図８を参照すると、システムまたはコンピュータ環境１０００が、一般的なコンピューティングデバイスの形で示されるコンピュータ図１０１０を含む。例えば、本発明の方法は、例えば、概してメモリ１０３０、より具体的にはコンピュータ可読記憶媒体１０５０と呼ばれる、コンピュータ可読記憶デバイス、またはコンピュータ可読記憶媒体上に具現化される、プログラム命令を含むプログラム１０６０に具現化されてよい。そのようなメモリもしくはコンピュータ可読記憶媒体またはその両方は、不揮発性メモリまたは不揮発性記憶装置を含む。例えば、メモリ１０３０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）またはＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記憶媒体１０３４と、キャッシュメモリ１０３８とを含むことができる。プログラム１０６０は、（プログラムステップ、コード、またはプログラムコードを実行するために）コンピュータシステム１０１０のプロセッサ１０２０で実行可能である。データ１１１４を含むデータベース１１１０として、更なるデータ記憶装置が具現化されてもよい。コンピュータシステム１０１０およびプログラム１０６０は、ユーザにとってローカルであっても、リモートサービスとして（例えば、クラウドベースのサービスとして）提供されてもよい、コンピュータおよびプログラムの一般的な表現であり、通信ネットワーク１２００を使用して（例えば、ネットワーク、インターネット、またはクラウドサービスと相互作用して）アクセス可能なウェブサイトを使用して、更なる例で提供されてよい。本明細書において、コンピュータシステム１０１０はまた、ラップトップコンピュータまたはデスクトップコンピュータなどといった、コンピュータデバイスもしくはデバイスに含まれるコンピュータ、または、１つまたは複数のサーバを、単独でまたはデータセンタの一部として一般的に表すことが解る。コンピュータシステムは、ネットワークアダプタ／インタフェース１０２６および入出力（Ｉ／Ｏ）インタフェース１０２２を含むことができる。Ｉ／Ｏインタフェース１０２２は、コンピュータシステムに接続され得る外部デバイス１０７４とのデータの入出力を可能にする。ネットワークアダプタ／インタフェース１０２６は、コンピュータシステムと、通信ネットワーク１２００として一般的に示されるネットワークとの間の通信を提供してよい。

コンピュータ１０１０は、コンピュータシステムにより実行されている、プログラムモジュールなどのコンピュータシステム実行可能命令の一般的なコンテキストで説明されてよい。概して、プログラムモジュールは、特定のタスクを実行するか、特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、およびデータ構造などを含んでよい。方法のステップと、システムのコンポーネントおよび技法とは、方法のステップおよびシステムの各々のタスクを実行するためのプログラム１０６０のモジュールに具現化されてよい。モジュールは一般的に、プログラムモジュール１０６４として図に表される。プログラム１０６０およびプログラムモジュール１０６４は、プログラムの特定のステップ、ルーチン、サブルーチン、命令、またはコードを実行することができる。

本開示の方法は、モバイルデバイスなどのデバイス上でローカルに実行されてもよいし、例えば、リモートであり得ると同時に通信ネットワーク１２００を使用してアクセスされ得るサーバ１１００上で、サービスを実行してもよい。プログラムまたは実行可能命令は、プロバイダによりサービスとして提供されてもよい。コンピュータ１０１０は、通信ネットワーク１２００を介してリンクされるリモート処理デバイスによりタスクが実行される分散型クラウドコンピューティング環境で実施されてよい。分散型クラウドコンピューティング環境では、プログラムモジュールが、メモリ記憶デバイスを含む、ローカルなコンピュータシステム記憶媒体およびリモートのコンピュータシステム記憶媒体の両方に配置されてよい。

コンピュータ１０１０は、様々なコンピュータ可読媒体を含むことができる。そのような媒体は、コンピュータ１０１０（例えば、コンピュータシステムまたはサーバ）によりアクセス可能な任意の利用可能な媒体であってよく、揮発性媒体および不揮発性媒体の両方、並びに、取り外し可能な媒体および取り外し不可能な媒体を含むことができる。コンピュータメモリ１０３０は、ランダムアクセスメモリ（ＲＡＭ）１０３４もしくはキャッシュメモリ１０３８またはその両方などの、揮発性メモリの形の更なるコンピュータ可読媒体を含むことができる。コンピュータ１０１０は、他の取り外し可能／取り外し不可能な揮発性／不揮発性のコンピュータ記憶媒体、一例では、ポータブルコンピュータ可読記憶媒体１０７２を更に含んでよい。一実施形態では、コンピュータ可読記憶媒体１０５０は、取り外し不可能な不揮発性の磁気媒体に対する読み取りおよび書き込みを行うために提供され得る。コンピュータ可読記憶媒体１０５０は、例えば、ハードドライブとして具現化され得る。例えば、データ１１１４を記憶し、かつ、処理ユニット１０２０と通信するための、記憶システム１１１０（例えば、データベース）として、更なるメモリおよびデータ記憶装置が提供され得る。データベースは、サーバ１１００上に記憶されてもよいし、サーバ１１００の一部であってもよい。示されてはいないが、取り外し可能な不揮発性の磁気ディスク（例えば、「フロッピーディスク」）に対する読み取りおよび書き込みを行うための磁気ディスクドライブと、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光媒体などの取り外し可能な不揮発性の光ディスクに対する読み取りまたは書き込みを行うための光ディスクドライブとが提供され得る。そのような場合は、各々が１つまたは複数のデータ媒体インタフェースによりバス１０１４に接続され得る。以下で更に描写および説明するように、メモリ１０３０は、本発明の実施形態の機能を実行するように構成される１つまたは複数のプログラムモジュールを含み得る少なくとも１つのプログラム製品を含んでよい。

本開示で説明する方法は、例えば、プログラム１０６０と一般的に呼ばれる１つまたは複数のコンピュータプログラムに具現化されてよく、コンピュータ可読記憶媒体１０５０内のメモリ１０３０に記憶され得る。プログラム１０６０は、プログラムモジュール１０６４を含むことができる。プログラムモジュール１０６４は概して、本明細書で説明するような本発明の実施形態の機能もしくは方法論またはその両方を実行することができる。１つまたは複数のプログラム１０６０は、メモリ１０３０に記憶され、処理ユニット１０２０で実行可能である。例として、メモリ１０３０は、コンピュータ可読記憶媒体１０５０上にオペレーティングシステム１０５２、１つまたは複数のアプリケーションプログラム１０５４、他のプログラムモジュール、およびプログラムデータを記憶してよい。プログラム１０６０と、コンピュータ可読記憶媒体１０５０上に記憶されるオペレーティングシステム１０５２およびアプリケーションプログラム１０５４とは、処理ユニット１０２０で同様に実行可能であることが解る。また、アプリケーション１０５４およびプログラム１０６０が、一般的に示されるものであり、本開示で説明する１つまたは複数のアプリケーションおよびプログラムの全てを含んでもよいし、その一部であってもよいこと、または、その逆であってもよいこと、すなわち、アプリケーション１０５４およびプログラム１０６０が、本開示で説明する１つまたは複数のアプリケーションまたはプログラムの全てであってもよいし、その一部であってもよいことが解る。

１つまたは複数のプログラムを１つまたは複数のコンピュータ可読記憶媒体に記憶することで、プログラムがコンピュータ可読記憶媒体に具現化されるか、もしくは符号化されるか、またはその両方となるようにすることができる。一例では、記憶されたプログラムは、方法を実行するため、または、コンピュータシステムに１つまたは複数の機能を実行させるために、プロセッサ、またはプロセッサを有するコンピュータシステムで実行するためのプログラム命令を含むことができる。

コンピュータ１０１０は、キーボード、ポインティングデバイス、ディスプレイ１０８０などといった１つまたは複数の外部デバイス１０７４、ユーザがコンピュータ１０１０と相互作用することを可能にする１つまたは複数のデバイス、もしくは、コンピュータ１０１０が１つまたは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデムなど）、またはその組み合わせと通信してもよい。そのような通信は、入出力（Ｉ／Ｏ）インタフェース１０２２を介して行われ得る。なおも更に、コンピュータ１０１０は、ネットワークアダプタ／インタフェース１０２６を介して、ローカルエリアネットワーク（ＬＡＮ）、一般的なワイドエリアネットワーク（ＷＡＮ）、もしくはパブリックネットワーク（例えば、インターネット）、またはその組み合わせなどの１つまたは複数のネットワーク１２００と通信することができる。示されているように、ネットワークアダプタ１０２６は、バス１０１４を介してコンピュータ１０１０の他のコンポーネントと通信する。示されてはいないが、他のハードウェアもしくはソフトウェアコンポーネントまたはその両方がコンピュータ１０１０と併せて使用され得ることを理解されたい。例には、マイクロコード、デバイスドライバ１０２４、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、およびデータアーカイブ記憶システムなどが含まれるが、これらに限定されない。

コンピュータ、またはコンピュータ１０１０上で実行されているプログラムは、通信ネットワーク１２００として具現化される１つまたは複数の通信ネットワークを介して、サーバ１１００として具現化されるサーバと通信してよいことが解る。通信ネットワーク１２００は、例えば、無線、有線、または光ファイバを含む、伝送媒体およびネットワークリンク、並びに、ルータ、ファイアウォール、スイッチ、およびゲートウェイコンピュータを含んでよい。通信ネットワークは、ワイヤ、無線通信リンク、または光ファイバケーブルなどの接続を含んでよい。通信ネットワークは、ライトウェイトディレクトリアクセスプロトコル（ＬＤＡＰ）、トランスポートコントロールプロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、ワイヤレスアプリケーションプロトコル（ＷＡＰ）などといった様々なプロトコルを使用して互いに通信する、インターネットなどのネットワークおよびゲートウェイの世界的な集合を表す場合がある。ネットワークは、例えば、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、またはワイドエリアネットワーク（ＷＡＮ）などの幾つかの異なるタイプのネットワークを含んでもよい。

一例では、コンピュータは、インターネットを使用してウェブ（ワールドワイドウェブ）上のウェブサイトにアクセスし得るネットワークを使用することができる。一実施形態では、モバイルデバイスを含むコンピュータ１０１０は、インターネットを含み得る通信システムもしくはネットワーク１２００、または、公衆交換電話網（ＰＳＴＮ）、例えば、セルラネットワークを使用することができる。ＰＳＴＮは、電話回線、光ファイバケーブル、伝送リンク、セルラネットワーク、および通信衛星を含んでよい。インターネットは、携帯電話またはラップトップコンピュータを使用して、テキストメッセージ（ＳＭＳ）、（ＳＭＳに関連する）マルチメディアメッセージングサービス（ＭＭＳ）、電子メール、またはウェブブラウザを介して検索エンジンにクエリを送信するなど、多数の検索技法およびテキスティング技法を容易にする場合がある。検索エンジンは、検索結果、すなわち、クエリに対応するウェブサイト、ドキュメント、または他のダウンロード可能なデータへのリンクを取得し、同様に、例えば、検索結果のウェブページとして、デバイスを介してユーザに検索結果を提供することができる。

本発明は、任意の考えられる技術的詳細レベルの統合における、システム、方法もしくはコンピュータプログラム製品またはその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有する１または複数のコンピュータ可読記憶媒体を含んでよい。

コンピュータ可読記憶媒体は、命令実行デバイスで使用する命令を保持および記憶し得る有形のデバイスであってよい。コンピュータ可読記憶媒体は、例えば、以下に限定されるわけではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述のものの任意の適切な組み合わせであってよい。コンピュータ可読記憶媒体のより具体的な例の非包括的な列挙には、ポータブルコンピュータディスケットと、ハードディスクと、ランダムアクセスメモリ（ＲＡＭ）と、リードオンリメモリ（ＲＯＭ）と、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）と、スタティックランダムアクセスメモリ（ＳＲＡＭ）と、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）と、デジタル多用途ディスク（ＤＶＤ）と、メモリスティックと、フロッピーディスクと、パンチカード、または命令を記録した溝内の隆起構造などの、機械的に符号化されたデバイスと、前述のものの任意の適切な組み合わせとが含まれる。コンピュータ可読記憶媒体は、本明細書で使用するとき、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体を介して伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、ワイヤを介して伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。

本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれの対応するコンピューティング／処理デバイスにダウンロードされてもよいし、インターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワークまたはその組み合わせなどのネットワークを介して、外部コンピュータまたは外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはその組み合わせを備えてよい。各コンピューティング／処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれの対応するコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためのコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Ｓｍａｌｌｔａｌｋ（登録商標）またはＣ＋＋などといったオブジェクト指向型プログラミング言語と、「Ｃ」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語とを含む、１または複数のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で実行されてもよいし、スタンドアロンのソフトウェアパッケージとして部分的にユーザのコンピュータ上で実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、全体的にリモートコンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、その接続が、（例えば、インターネットサービスプロバイダを使用するインターネットを介して）外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラム可能な論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路が、本発明の態様を実行すべく、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行してよい。

本明細書では、本発明の実施形態に係る方法、装置（システム）、およびコンピュータプログラム製品の、フローチャート図もしくはブロック図またはその両方を参照して、本発明の態様が説明されている。フローチャート図もしくはブロック図またはその両方の各ブロックと、フローチャート図もしくはブロック図またはその両方のブロックの組み合わせとは、コンピュータ可読プログラム命令により実装され得ることが解るであろう。

これらのコンピュータ可読プログラム命令をコンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供して機械を生産することで、コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置を介して実行される命令が、フローチャートもしくはブロック図またはその両方の１または複数のブロックで指定された機能／動作を実装するための手段を作成するようにしてよい。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能なデータ処理装置もしくは他のデバイスまたはその組み合わせを特定の方式で機能するよう方向付けることができる、コンピュータ可読記憶媒体に記憶することで、命令を記憶したコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその両方の１または複数のブロックで指定された機能／行為の態様を実装する命令を含む製造品を備えるようにしてもよい。

コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイス上にロードして、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の動作可能なステップを実行させて、コンピュータ実装過程を生成することで、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその両方の１または複数のブロックで指定された機能／行為を実装するようにしてもよい。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の考えられる実装のアーキテクチャ、機能、および動作を示す。この際、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための１または複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表してよい。幾つかの代替的な実装では、ブロックに記す機能が、図に記す順序とは異なる順序で行われてもよい。例えば、連続して示される２つのブロックが、実際には１つのステップとして達成され、部分的または全体的に時間的に重複する方式で、同時に、実質的に同時に実行されてもよいし、これらのブロックが、関連する機能に応じて逆の順序で実行される場合があってもよい。ブロック図もしくはフローチャート図またはその両方の各ブロック、並びに、ブロック図もしくはフローチャート図またはその両方におけるブロックの組み合わせが、指定された機能または動作を実行するか、特殊目的ハードウェアとコンピュータ命令との組み合わせを実行する、特殊目的ハードウェアベースのシステムにより実装され得ることにも気が付くであろう。

本開示はクラウドコンピューティングに関する詳細な説明を含み得るが、本明細書に列挙される教示の実装がクラウドコンピューティング環境に限定されるわけではないことを理解されたい。むしろ、本発明の実施形態は、現在知られているか、後ほど開発される、任意の他のタイプのコンピューティング環境と組み合わせて実装され得る。

クラウドコンピューティングは、最小限の管理努力またはサービスプロバイダとの相互作用で早急にプロビジョニングおよび解放され得る構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシン、およびサービス）の、共有プールへの便利なオンデマンドネットワークアクセスを可能にするためのサービス提供のモデルである。このクラウドモデルは、少なくとも５つの特性と、少なくとも３つのサービスモデルと、少なくとも４つの展開モデルとを含んでよい。

特性は以下の通りである。

オンデマンドセルフサービス：クラウド消費者は、サービスプロバイダとの人間相互作用を必要とすることなく必要に応じて自動的に、サーバ時間およびネットワーク記憶装置などのコンピューティング能力を一方的にプロビジョニングすることができる。

幅広いネットワークアクセス：能力はネットワーク経由で利用可能であり、異種のシンクライアントプラットフォームまたはシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準メカニズムを介してアクセスされる。

リソースのプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプーリングされ、複数の異なる物理リソースおよび仮想リソースが、需要に従って動的に割り当てられ、再び割り当てられる。消費者は概して、提供されたリソースの正確な位置を制御することも認識することもないが、より高いレベルの抽象的概念（例えば、国、州、またはデータセンタ）で位置を指定できる場合があるという点で、位置独立性がある。

早急な順応性：能力は、早急かつ順応的に、場合によっては自動的に、プロビジョニングされて迅速にスケールアウトし、早急に解放されて迅速にスケールインすることができる。消費者には、プロビジョニングに利用可能な能力が無制限に見えることが多く、任意の時間に任意の量が購入され得る。

測定されたサービス：クラウドシステムは、サービスのタイプ（例えば、記憶装置、処理、帯域幅、およびアクティブなユーザのアカウント）に適したある抽象化レベルで計測能力を利用することにより、リソースの使用を自動的に制御および最適化する。リソースの使用を監視、制御、および報告して、利用されたサービスのプロバイダおよび消費者の両方に透明性を提供することができる。

サービスモデルは以下の通りである。

ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ（ＳａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャ上で実行されているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ（例えば、ウェブベースの電子メール）などのシンクライアントインタフェースを介して様々なクライアントデバイスからアクセス可能である。消費者は、場合によっては、限られたユーザ固有のアプリケーション構成設定を例外として、ネットワーク、サーバ、オペレーティングシステム、記憶装置、または更には個々のアプリケーション能力を含む、土台となるクラウドインフラストラクチャの管理も制御も行わない。

ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ（ＰａａＳ）：消費者に提供される能力は、プロバイダによりサポートされるプログラミング言語およびツールを使用して作成される、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、または記憶装置を含む、土台となるクラウドインフラストラクチャの管理も制御も行わないが、展開されたアプリケーションと、場合によっては、アプリケーションホスティング環境の構成とを制御する。

ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ（ＩａａＳ）：消費者に提供される能力は、処理と、記憶装置と、ネットワークと、オペレーティングシステムおよびアプリケーションを含み得る、消費者が任意のソフトウェアを展開および実行できる他の基本的なコンピューティングリソースとをプロビジョニングすることである。消費者は、土台となるクラウドインフラストラクチャの管理も制御も行わないが、オペレーティングシステム、記憶装置、展開されたアプリケーションを制御し、場合によっては、厳選のネットワーキングコンポーネント（例えば、ホストファイアウォール）を限定的に制御する。

展開モデルは以下の通りである。

プライベートクラウド：クラウドインフラストラクチャは、組織のためだけに運用される。それは、組織またはサードパーティにより管理されてよく、オンプレミスまたはオフプレミスに存在してよい。

コミュニティクラウド：クラウドインフラストラクチャは、幾つかの組織により共有され、懸念事項（例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンスの考慮事項）を共有している特定のコミュニティをサポートする。それは、組織またはサードパーティにより管理されてよく、オンプレミスまたはオフプレミスに存在してよい。

パブリッククラウド：クラウドインフラストラクチャは、一般人または大規模な業界団体が利用できるようになっており、クラウドサービスを販売する組織により所有される。

ハイブリッドクラウド：クラウドインフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーションの移植性（例えば、クラウド間の負荷分散のためのクラウドバースティング）を実現する標準技術または特許技術により結び付けられている、２つまたはそれより多くのクラウド（プライベート、コミュニティ、またはパブリック）の構成である。

クラウドコンピューティング環境は、ステートレス状態、低結合、モジュール性、および意味相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。

ここで図９を参照すると、例示的なクラウドコンピューティング環境２０５０が示されている。示されているように、クラウドコンピューティング環境２０５０は、例えば、携帯用情報端末（ＰＤＡ）もしくはセルラ電話２０５４Ａ、デスクトップコンピュータ２０５４Ｂ、ラップトップコンピュータ２０５４Ｃもしくは自動車コンピュータシステム２０５４Ｎまたはその組み合わせなどの、クラウド消費者により使用されるローカルコンピューティングデバイスが通信し得る１または複数のクラウドコンピューティングノード２０１０を含む。ノード２０１０は互いに通信してよい。それらは、上述のようなプライベートクラウド、コミュニティクラウド、パブリッククラウドもしくはハイブリッドクラウド、またはその組み合わせなどの、１または複数のネットワークで、物理的または仮想的にグループ化（不図示）されてよい。これによって、クラウドコンピューティング環境２０５０は、クラウド消費者がローカルコンピューティングデバイス上でリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせを提供することができる。図９に示すコンピューティングデバイス２０５４Ａ～Ｎのタイプは、単に例示を意図するものであり、コンピューティングノード２０１０およびクラウドコンピューティング環境２０５０は、任意のタイプのネットワークもしくはネットワークアドレス可能接続またはその両方を介して（例えば、ウェブブラウザを使用して）、任意のタイプのコンピュータ化されたデバイスと通信できることが解る。

ここで図１０を参照すると、クラウドコンピューティング環境２０５０（図９）により提供される一組の関数抽象化層が示されている。図１０に示すコンポーネント、層、および機能は単に例示を意図するものであり、本発明の実施形態はそれに限定されないことを予め理解されたい。示されているように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層２０６０が、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム２０６１、ＲＩＳＣ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ：縮小命令セットコンピュータ）アーキテクチャベースのサーバ２０６２、サーバ２０６３、ブレードサーバ２０６４、記憶デバイス２０６５、および、ネットワークおよびネットワーキングコンポーネント２０６６が含まれる。幾つかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア２０６７およびデータベースソフトウェア２０６８を含む。

仮想化層２０７０は、仮想サーバ２０７１、仮想記憶装置２０７２、仮想プライベートネットワークを含む仮想ネットワーク２０７３、仮想アプリケーションおよびオペレーティングシステム２０７４、および仮想クライアント２０７５といった、仮想エンティティの例の提供元であり得る抽象化層を提供する。

一例では、管理層２０８０が下記の機能を提供してよい。リソースプロビジョニング２０８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を提供する。計測および価格設定２０８２は、リソースがクラウドコンピューティング環境内で利用される際のコスト追跡と、これらのリソースの消費に対する請求または送り状作成とを提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウド消費者およびタスクのアイデンティティ検証、並びに、データおよび他のリソースの保護を提供する。ユーザポータル２０８３は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービス水準管理２０８４は、必要なサービス水準が満たされるように、クラウドコンピューティングリソースの配分および管理を提供する。サービス水準合意（ＳＬＡ）の計画および履行２０８５は、ＳＬＡに従って将来の要件が予想されるクラウドコンピューティングリソースに関する事前アレンジメントおよびその調達を提供する。

作業負荷層２０９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得る作業負荷および機能の例には、マッピングおよびナビゲーション２０９１、ソフトウェア開発およびライフサイクル管理２０９２、仮想教室教育の提供２０９３、データ分析処理２０９４、トランザクション処理２０９５、およびデータセットコンテンツおよび所望のデータ属性に従って複数のデータセットをランク付けする自動化方法２０９６が含まれる。

本発明の様々な実施形態の説明は、例示を目的として提示されているが、包括的であることを意図するものでも、開示されている実施形態に限定されることを意図するものでもない。同様に、本明細書で説明する本開示の実施形態の特徴または機能の例は、特定の実施形態の説明に使用されるか、例として列挙されるかに関わらず、本明細書で説明する本開示の実施形態を限定することを意図するものでも、本明細書で説明する例に本開示を限定することを意図するものでもない。説明されている実施形態の範囲および主旨から逸脱することのない多くの修正および変形が、当業者には明らかであろう。本明細書で使用する専門用語は、実施形態の原理、実際の適用、もしくは市場で見られる技術に対する技術的改善点を最も良く説明するように、または、当業者が本明細書で開示する実施形態を理解できるように選択された。

Claims

データセット属性に従って複数のデータセットをソートするコンピュータ実装方法であって、
コンピュータが、一組のプロセスドキュメントから一組のターゲットデータフィールドを識別する段階であって、前記プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、段階と、
前記コンピュータが、一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別する段階であって、前記データ使用ドキュメントは、前記ユーザに関するデータスコープ嗜好を示す、段階と、
コンピュータが、関連付けられる複数のデータセットに関する複数のメタデータセットを生成する段階と
前記コンピュータが、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定する段階であって、前記フィールド適合性値は、データセットに関連付けられる一組のフィールドと、前記一組のターゲットデータフィールドとの類似度を表す、段階と、
前記コンピュータが、前記ターゲットデータセット属性に関して、前記関連付けられるメタデータセットを候補データセットごとに査定し、かつ、前記コンピュータが、関連付けられるデータセットに前記ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成する段階と、
前記コンピュータが、前記比較される属性スコア別にソートされる前記候補データセットのリストを生成する段階と
を備える方法。
前記データ使用ドキュメントは、ビジネスプロセス実行言語（ＢＥＰＬ）および統一モデリング言語（ＵＭＬ）で構成されるリストから選択される形式の情報を含む、請求項１に記載の方法。
前記ターゲットデータセット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、前記プロセスドキュメントの要素から抽出される、請求項１または２に記載の方法。
比較される属性スコアが最も高い候補データセットを、選択されるデータセットとして指定する段階を更に備える、請求項１から３のいずれか一項に記載の方法。
前記選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立する段階と、前記検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられる前記メタデータセットにおける過去の使用フィールドを更新する段階とを更に備える、請求項４に記載の方法。
ランク付けは、前記過去の使用フィールド値に少なくとも部分的に基づいている、請求項５に記載の方法。
前記比較される属性スコアは、前記ターゲットデータセット属性の各々に関連付けられる、関連付けられる望ましさの値に少なくとも部分的に基づいている、請求項１から６のいずれか一項に記載の方法。
前記メタデータセットは、ドメイン、性別、年齢層、地理的分布、人口統計学的分布、数値の統計学的範囲、および適用可能性のコンテキストで構成されるリストから選択される情報を含む、請求項１から７のいずれか一項に記載の方法。
データセット属性に従って複数のデータセットをソートするシステムであって、前記システムは、
プログラム命令が共に具現化されたコンピュータ可読記憶媒体を有するコンピュータシステムを備え、コンピュータで実行可能な前記プログラム命令は、前記コンピュータに、
一組のプロセスドキュメントから一組のターゲットデータフィールドを識別することであって、前記プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、識別することと、
一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別することであって、前記データ使用ドキュメントは、前記ユーザに関するデータスコープ嗜好を示す、識別することと、
関連付けられる複数のデータセットに関する複数のメタデータセットを生成することと、
予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定することであって、前記フィールド適合性値は、データセットに関連付けられる一組のフィールドと、前記一組のターゲットデータフィールドとの類似度を表す、決定することと、
前記ターゲットデータセット属性に関して、前記関連付けられるメタデータセットを候補データセットごとに査定し、かつ、関連付けられるデータセットに前記ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成することと、
前記比較される属性スコア別にソートされる前記候補データセットのリストを生成することと
を行わせる、
システム。
前記データ使用ドキュメントは、ビジネスプロセス実行言語（ＢＥＰＬ）および統一モデリング言語（ＵＭＬ）で構成されるリストから選択される形式の情報を含む、請求項９に記載のシステム。
前記ターゲットデータセット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、前記プロセスドキュメントの要素から抽出される、請求項９または１０に記載のシステム。
比較される属性スコアが最も高い候補データセットを、選択されるデータセットとして指定するための、前記コンピュータに対する命令を更に備える、請求項９から１１のいずれか一項に記載のシステム。
前記選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立することと、前記検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられる前記メタデータセットにおける過去の使用フィールドを更新することとを行うための、前記コンピュータに対する命令を更に備える、請求項１２に記載のシステム。
ランク付けは、前記過去の使用フィールド値に少なくとも部分的に基づいている、請求項１３に記載のシステム。
前記比較される属性スコアは、前記ターゲットデータセット属性の各々に関連付けられる、関連付けられる望ましさの値に少なくとも部分的に基づいている、請求項９から１４のいずれか一項に記載のシステム。
前記メタデータセットは、ドメイン、性別、年齢層、地理的分布、人口統計学的分布、数値の統計学的範囲、および適用可能性のコンテキストで構成されるリストから選択される情報を含む、請求項９から１５のいずれか一項に記載のシステム。
コンピュータに、
一組のプロセスドキュメントから一組のターゲットデータフィールドを識別する手順であって、前記プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、手順と、
一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別する手順であって、前記データ使用ドキュメントは、前記ユーザに関するデータスコープ嗜好を示す、手順と、
関連付けられる複数のデータセットに関する複数のメタデータセットを生成する手順と、
予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定する手順であって、前記フィールド適合性値は、データセットに関連付けられる一組のフィールドと、前記一組のターゲットデータフィールドとの類似度を表す、手順と、
前記ターゲットデータセット属性に関して、前記関連付けられるメタデータセットを候補データセットごとに査定し、かつ、関連付けられるデータセットに前記ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成する手順と、
前記比較される属性スコア別にソートされる前記候補データセットのリストを生成する手順と
実行させるためのコンピュータプログラム。
前記データ使用ドキュメントは、ビジネスプロセス実行言語（ＢＥＰＬ）および統一モデリング言語（ＵＭＬ）で構成されるリストから選択される形式の情報を含む、請求項１７に記載のコンピュータプログラム。
前記ターゲットデータセット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、前記プロセスドキュメントの要素から抽出される、請求項１７または１８に記載のコンピュータプログラム。
前記コンピュータに、
比較される属性スコアが最も高い候補データセットを、選択されるデータセットとして指定する手順を更に実行させる、請求項１７から１９のいずれか一項に記載のコンピュータプログラム。