JP2022096632A - コンピュータ実装方法、コンピュータシステムおよびコンピュータプログラム(データ属性に基づくデータセットのランク付け) - Google Patents

コンピュータ実装方法、コンピュータシステムおよびコンピュータプログラム(データ属性に基づくデータセットのランク付け) Download PDF

Info

Publication number
JP2022096632A
JP2022096632A JP2021202946A JP2021202946A JP2022096632A JP 2022096632 A JP2022096632 A JP 2022096632A JP 2021202946 A JP2021202946 A JP 2021202946A JP 2021202946 A JP2021202946 A JP 2021202946A JP 2022096632 A JP2022096632 A JP 2022096632A
Authority
JP
Japan
Prior art keywords
dataset
computer
data
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021202946A
Other languages
English (en)
Inventor
マンジット シング ソドヒ
Manjit Singh Sodhi
カラプリヤ カンナン
Kannan Kalapriya
ポーニマ イエンガー
Iyengar Poornima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022096632A publication Critical patent/JP2022096632A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】データセット値は使用事例により異なる可能性がありデータセット価値を評価しランク付けする方法、システム及びプログラムを提供する。【解決手段】コンピュータは、ユーザデータ嗜好を示すドキュメントからデータセット属性を識別し、関連する複数のデータセットに関するメタデータセットを生成する。予め定められた適合性閾値を超えるフィールド適合値を有する候補データセットを決定する。フィールド適合値は、データセットに関連するフィールドとデータフィールドとの類似度を表す。ターゲット属性に関して関連するメタデータセットを候補データセット毎に査定する。関連するデータセットにターゲットデータセット属性を示すコンテンツが含まれる可能性を示す比較される属性スコアを候補データセット毎に生成する。比較される属性スコア別にソートされる候補データセットのリストを生成する。【選択図】図2

Description

本発明は概して、データセット分析の分野、より具体的には、コンピュータデータセット評価に関連する。
データセットは、多くの実世界の状況およびシミュレートされた状況に関する質問に対する回答を提供するために様々なコンピュータシステムにより使用され得るデータのグループである。多くの場合、データセットは、これまでのトランザクションに関する情報、または、同様の現在および将来のトランザクションに関する予測が行われ得る他の過去の情報を含む。幾つかのドメインでは、データセットは、システム動作の副産物としてユーザシステムにより生成され、将来の使用が維持される。他のドメインでは、データセット、特に、大きいデータセットまたはカスタマイズされたデータセットは、ユーザの負担でサードパーティにより提供される場合がある。人工知能(AI)システムは、データセットに含まれるデータ内のパターンを識別して、他のやり方では予測しづらいことが多い傾向を明らかにすることができる。データセットは、コンテンツの面で大きく異なる可能性があるので、特定のユーザにとっては幾つかのデータセットが他のものより有用である。
データセットの値は、使用事例ごとに異なる可能性がある。データの使用目的が分かっている場合は、データセットの価値を評価すること、および、評価されたデータセットをランク付けすることができる。
一実施形態によれば、データセット属性に従って複数のデータセットをソートするためのコンピュータ実装方法が、コンピュータが一組のプロセスドキュメントから一組のターゲットデータフィールドを識別する段階であって、プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、段階を含む。コンピュータは、一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別し、データ使用ドキュメントは、ユーザのデータスコープ嗜好を示す。コンピュータは、関連付けられる複数のデータセットに関する一群のメタデータセットを生成する。コンピュータは、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定し、フィールド適合性値は、当該データセットに関連付けられる一組のフィールドと、一組のターゲットデータフィールドとの類似度を表す。コンピュータは、ターゲット属性に関して、関連付けられるメタデータセットを候補データセットごとに査定する。コンピュータは、関連付けられるデータセットに当該ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成する。コンピュータは、比較される属性スコア別にソートされる当該候補データセットのリストを生成する。
本発明の態様によれば、データ使用ドキュメントは、ビジネスプロセス実行言語(BEPL)および統一モデリング言語(UML)で構成されるリストから選択される形式の情報を含む。本発明の態様によれば、データターゲット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、当該プロセスドキュメントの要素から抽出される。本発明の態様によれば、比較される属性スコアが最も高い候補データセットが、選択されるデータセットとして指定される。本発明の態様によれば、当該選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立する段階と、検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられるメタデータセットにおける過去の使用フィールドを更新する段階と。本発明の態様によれば、ランク付けは、過去の使用フィールド値に少なくとも部分的に基づいている。本発明の態様によれば、比較される属性スコアは、当該ターゲットデータセット属性の各々に関連付けられる、関連付けられる望ましさの値に少なくとも部分的に基づいている。本発明の態様によれば、メタデータセットは、ドメイン、性別、年齢層、地理的分布、人口統計学的分布、数値の統計学的範囲、および適用可能性のコンテキストで構成されるリストから選択される情報を含む。
別の実施形態によれば、複数のデータセットをランク付けするシステムが提供される。このシステムは、プログラム命令が共に具現化されたコンピュータ可読記憶媒体を有するコンピュータシステムを備え、コンピュータで実行可能なプログラム命令は、コンピュータに、一組のプロセスドキュメントから一組のターゲットデータフィールドを識別することであって、当該プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、識別することと、一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別することであって、当該データ使用ドキュメントは、当該ユーザに関するデータスコープ嗜好を示す、識別することと、関連付けられる複数のデータセットに関する複数のメタデータセットを生成することと、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定することであって、当該フィールド適合性値は、当該データセットに関連付けられる一組のフィールドと、一組のターゲットデータフィールドとの類似度を表す、決定することと、ターゲット属性に関して、関連付けられるメタデータセットを候補データセットごとに査定し、かつ、関連付けられるデータセットに当該ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成することと、当該比較される属性スコア別にソートされる当該候補データセットのリストを生成することとを行わせる。
別の実施形態によれば、複数のデータセットをランク付けするコンピュータプログラム製品が提供される。このコンピュータプログラム製品は、プログラム命令が共に具現化されたコンピュータ可読記憶媒体を備え、コンピュータで実行可能なプログラム命令は、コンピュータに、コンピュータを使用して、ユーザのデータフィールド嗜好を示す一組のプロセスドキュメントから一組のデータターゲット属性を識別することと、当該コンピュータを使用して、ユーザのデータスコープ嗜好を示す一組のデータ使用ドキュメントから一組のデータセットターゲット属性を識別することと、当該コンピュータを使用して、関連付けられる複数のデータセットに関する複数のメタデータセットを生成することと、当該コンピュータを使用して、予め定められた適合性閾値を超えるフィールド適合性値を有する上位k個の候補データセットを決定することと、当該コンピュータを使用して、ターゲット属性に関して、関連付けられるメタデータセットを候補データセットごとに査定し、かつ、当該コンピュータを使用して、比較される属性スコアを候補データセットごとに生成することと、当該コンピュータを使用して、当該比較される属性スコアに少なくとも部分的に基づいて当該候補データセットをランク付けすることとを行わせる。
所与のデータセットの値は、データセット記録フィールドコンテンツと、含まれる情報の範囲とを含む、様々な要因に基づいている可能性がある。例えば、多くのデータ分析システムには、有意な出力を提供すべく、特定の種類の情報(例えば、特定のフィールド)が必要であり、適切な情報の量がより多い(例えば、所望のデータフィールドの数がより多い)データセットが、必要とされるデータフィールドが少ないデータセットよりも優先される。同様に、データ分析システムには、有意な出力を提供すべく、システムに提示されている質問に適したデータが必要であり、所与のデータセットの、使用目的範囲(例えば、投げ掛けられることが予想される質問)に対する関連性が高いほど、データセット値が高くなる。
本発明の態様は、ビジネスアプリケーションを伴うものを含めて、ユーザのデータ要件(ターゲットデータフィールドおよびターゲットデータセット属性を含む)に適合しており、データセット内のデータから導出されるメタデータと照合されるべきである。本発明の態様によれば、メタデータは、データコンテンツの人口統計およびデータコンテンツの統計学的性質を記述して、データセットコンテンツを表すべきである。
本発明の態様は、オントロジの使用と、キーと値のペアの使用とを含む様々な方法を通じて、データのフィールドを意味と関連付ける。
本発明の態様は第1に、ターゲットデータセット要件と、メタデータとのその適合とに基づいてデータセットに関するスコアを提供するグループを選択し、それにより、企業は、どのデータセットが自らの要件により適しているかを評価することができる。
発明の態様によれば、導出されるメタデータは、統計学的性質(例えば、分布のタイプ、平均、分散および関連する性質、任意の相互関係、並びに、それが時系列データを有するかどうか)と、様々なフィールドおよびそれらに関連する意味/意味論(例えば、貸付承認データセットでは、「配偶者」が「妻」および「夫」と同様である)と、「.CSV」ファイルおよび関連付けられるスキーマが分かっている場合は、スキーマに適した様々な意味(例えば、新しいマーケティングチャネルの開設に関連するフィールドは、スポーツイベントに関連付けられるフィールドの識別に使用される同様の名前のフィールドとは異なる特定の意味を持つ場合がある)が、メタデータとして記録され得ることと、識別された個人により付与される同意および許可に従って使用される場合は、個人を識別できる情報(例えば、電子メール、電話番号、住所/詳細な連絡先)と、(例えば、データセット使用の歴史的なマイニングと、それが共に使用された他のデータセットの識別とによる)以前のデータセット使用に関連するフィールドと、導出されるメタデータが、ドメイン、性別、年齢層、地理的分布のようなコンテンツ表現に関する情報も含む(これは、データセットが特定の年齢層、銀行ドメインに対して、または特定の地域などに対して適用可能であることを示すことができる)こととを含む。
本発明の態様は、(例えば、データセットメタデータで特徴付けられるように)データセットコンテンツに基づいてデータセット値を決定する。本発明の態様によれば、メタデータは、データセットのコンテンツベースの特性を示す記述的情報を含む。本発明の態様は、ビジネスのデータ要件を識別する。本発明の態様は、データセットをランク付けし、メタデータおよびその値の範囲の各々に関する属性および範囲値に基づいて、関連性スコアを提供する。本発明の態様は、ビジネス要件とデータのコンテンツとに基づいてデータセットに関する値を決定するための体系的な方法を定式化および導出する。本発明の態様は、スコアを使用し、メタデータのファセットごとにランク付けを導出する。本発明の態様は、データセット値を使用して、ビジネス要件に関して2つのデータセットを比較する。本発明の態様は、データのコンテンツに基づくデータセットの検索メカニズムを有効にする。本発明の態様は、異なるコンテキストにおけるデータ使用の履歴を使用してメタデータを生成し、それらを使用して、検索イベントが実施されるときにビジネスコンテキストを識別する。本発明の態様は、一組のビジネス要件の入力に基づいてデータセットのコーパスを検索し、適合性において最も良く適合するものという観点から結果をランク付けする。本発明の態様によれば、(例えば、必要とされるビジネスプロセスをサポートするための)ターゲットデータフィールドは、標準形式(例えば、抽出可能なアクティビティ、動作主体、順序付け/シーケンスを提供できるビジネスプロセス実行言語(BPEL)、および、関連するソフトウェア工学アーチファクトに関する図を提供する統一モデリング言語(UML))を使用した様々な図で定義される。本発明の態様によれば、UMLドキュメントは、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図を含むことができる。
本発明の態様によれば、BPEL図からのアクティビティをUMLアクティビティ図に調和させ、クラスレベルのコンポーネントを抽出するために使用することができる。本発明の態様によれば、クラスレベルのコンポーネントは、フィールドの全ての要件を与えることができる。
本発明の態様は、ビジネス要件を導出することができる。本発明の態様は、データセットおよびメタデータを評価することができる。本発明の態様は、データセット、データ値、およびデータファセットをランク付けすることができる。本発明の態様は、アンケート(または、データ要件を示す他のデータ使用ドキュメント)を使用して、ビジネスのためのモバイルまたはオンラインコマースチャネルを開設する方法に関する情報を提供することに所与のデータセットが関連しているかどうかを判断するのに役立つことができる。
幾つかの属性を持つコンテンツを有するデータセットは他のものより有用である場合があるので、システムの態様(例えば、ユーザデータ要件アンケートおよび他のデータ使用ドキュメントを含む)は、ユーザがコンテンツとして必要としているものを識別するのに役立つ。本発明の態様は、どのデータセットが様々なユーザ目標(例えば、クーポンを使用した新しい茶製品を発売するなど)に良く適合するかを示す、データの関連するコンテキストを識別する。
本発明の幾つかの態様によれば、PDAMは、アクティビティ図およびクラス図ロケータの位置を特定する「発見ユニット」を含む。本発明の幾つかの態様によれば、PDAMは、エンティティ抽出器およびアクティビティ抽出器を含む。
本発明の幾つかの態様によれば、属性という用語は、ファセットという単語と同義で使用されてよい。本発明の態様によれば、CAAMは、オントロジマッピングエンジンを含む。本発明の態様によれば、CAAMは、データセットがビジネスニーズに適合しているかどうかを判断する態様を含む。本発明の態様によれば、HULUM124は、データ使用メタデータ抽出器と、歴史的なデータセット使用を示し、かつ、選択されるデータセットが共に使用された他のデータセットを識別する、データセットの過去の使用ログとを含む。
添付図面に関連して読むべき例示的な実施形態の以下の詳細な説明からは、本発明のこれらおよび他の目的、特徴、および利点が明らかになろう。図面の様々な特徴は縮尺通りではない。なぜなら、これらの図は、当業者が詳細な説明と併せて本発明を理解するのを容易にするにあたって明確にするためのものだからである。図面についての記載は以下の通りである。
本発明の実施形態に係る、データセットコンテンツおよび所望のデータ属性に従って複数のデータセットをランク付けするコンピュータ実装方法のためのシステムの概要を示す概略ブロック図である。
本発明に従って複数のデータセットをランク付けするコンピュータ実装方法のためのシステムの、図1に示すシステムを使用して実装される方法を示すフローチャートである。
図1に示すシステムの態様の代替図である。
本発明の実施形態に係る、一組のランク付けされたデータセットを提供するために使用されている、図1に示すシステムの態様の概略図である。
図1に示すシステムの概略的な概要である。ここでは、システムの態様が複数のステージに配置されている。
方法のリストおよび関連する詳細を含む、図1に示すシステムの代替図である。ここでは、システムの態様がワークフローのアウトラインに従って配置されている。
本発明の実施形態に従って生成される「データ値」エントリおよび「データランク付け」エントリの態様の概略図である。
本発明の実施形態に係る、例示的なビジネスデータ使用アンケートおよび関連付けられるサンプル回答である。
図1に示す1つまたは複数のコンピュータまたはデバイスに完全または部分的に組み込まれてよく、かつ、図1に示すシステムおよび方法と連携する、本開示のある実施形態に係るコンピュータシステムを示す概略ブロック図である。
本発明のある実施形態に係るクラウドコンピューティング環境を示す。
本発明のある実施形態に係る抽象化モデル層を示す。
添付図面を参照する以下の説明は、特許請求の範囲およびその同等物で定義されるような本発明の例示的な実施形態を包括的な理解を支援するために提供される。その説明は、そうした理解を支援するための様々な具体的な詳細を含むが、これらは単なる例示的なものとして見なされるべきである。従って、当業者は、本明細書で説明する実施形態の様々な変更および修正が、本発明の範囲および主旨から逸脱することなく行われ得ることを認識するであろう。更には、明確かつ簡潔にするために、周知の機能および構造の説明が省略される場合がある。
以下の説明および特許請求の範囲で使用される用語および単語は、書誌的な意味に限定されず、本発明の明確で一貫性のある理解を可能にするために使用されるに過ぎない。従って、本発明の例示的な実施形態の以下の説明が、例示のみを目的として提供されるものであり、添付の特許請求の範囲およびその同等物で定義されるような本発明の限定を目的として提供されるものではないことが、当業者にとって明らかなはずである。
文脈での明確な指示がない限り、単数形「1つの(a)」、「1つの(an)」、および「その(the)」には複数の指示対象が含まれることを理解されたい。従って、文脈での明確な指示がない限り、例えば、「1人の参加者」への言及は、そのような参加者のうちの1人または複数への言及を含む。
ここで、これらの図の一般参照の組み合わせと、図1および図2の特別参照とにより、任意選択的に共有記憶装置104を有するサーバコンピュータ102により実行されるようなデータセットコンテンツに従って複数のデータセットをランク付けするコンピュータ実装方法のためのシステム100の概要。図1を引き続き参照すると、サーバコンピュータは、所望のデータセットデータフィールドを示すプロセスドキュメント106(例えば、BPEL、UML図など)のソースと通信している。サーバコンピュータ102は、既知のUML処理および査定ツール(図識別子および他の同様のUMLコンテンツ抽出器を含む)およびBPELリーダを使用してドキュメントをレビューおよびマイニングしてターゲットデータフィールドを識別する、プロセスドキュメンテーション分析モジュール(PDAM)112を含む。これらのターゲットデータフィールドは、所与のユーザのニーズに最も良く適合するデータの形式に関する情報を提供する。一例として、ユーザは、ビジネスプロセス実行言語(BPEL)で書き込まれたドキュメントを提供してよく、この形式のドキュメントは、ユーザのビジネスの運用にとって重要な、様々なアクティビティ、動作主体、およびプロセスシーケンスを示すことができ、これらの態様は、ユーザのデータニーズを理解する手助けをするために抽出され得る。別の例として、ユーザは、統一モデリング言語(UML)または同様のモデリング言語を使用して提示されるドキュメントを提供してよく、この形式のドキュメントは、クラス図、アクティビティ図、およびシーケンス図を含む、ユーザの処理システムの運用にとって重要なソフトウェアアーチファクトに関する洞察を提供することができる。BPELドキュメントからのアクティビティをUML図に調和させ、ユーザシステムのクラスレベルのコンポーネントを抽出するために使用することができる。サーバコンピュータ102は、抽出されたクラスレベルのコンポーネントを使用して、データフィールド要件を決定する。
サーバコンピュータ102は、所望のデータセット属性を示すデータ使用ドキュメント108(例えば、データ要件アンケートなど)のソースとも通信している。サーバコンピュータ102は、1つまたは複数のデータセット110のソースとも通信している。
サーバコンピュータ102は、データ使用ドキュメントを査定してターゲットデータセット属性を識別するためのデータ使用ドキュメント分析モジュール(DUDAM)114を含む。ユーザは、様々なやり方で(例えば、詳細なアンケートの応答、予想される質問のグループの提供、対象となるトピックの指定などを通じて)予期されるデータ使用に関する情報を提供してよく、この情報は、データコンテンツのどの範囲がユーザのニーズに最も良く適合するかを示す。本発明の態様によれば、この情報は、ビジネス要件に関する入力を提供し、その結果、適合するデータコンテンツは、様々なデータセットで遭遇したときに、そのようなものとして識別されてよい。例えば、ユーザが所与の地域における特定の製品のマーケティングに関する洞察を得たい場合は、その地域におけるその製品の販売に関する情報を含むデータセットは、異なる地域におけるその製品の販売情報のみを含んだデータセットより有益である可能性が高いであろう。本発明の態様によれば、製品に関する一般的な販売情報もこのユーザにとって有益である場合があり、ユーザデータ使用要件の問い合わせが、このレベルの詳細を収集するように構築されてよい。本発明の態様によれば、ユーザデータ使用嗜好に関してシステム100を訓練すべく、データ範囲に関する多種多様な嗜好がユーザから収集され得る。
サーバコンピュータ102は、(例えば、オントロジエンジン、統計学的データプロセッサ、または同様の既知のツール)を使用して、メタデータを識別するデータセット属性を抽出および生成する、メタデータ生成モジュール(MGM)116を含む。例えば、サーバコンピュータ102は、ドメインに関する機械可読ステートメント(例えば、様々なドメイン概念およびそれらの間の関係を記述する)を含むドメイン固有のオントロジを使用して、所与のデータセット内のフィールドに対して意味を割り当ててよい。MGM116は、フィールドの意味を示す単純なキーと値のペアを受信してもよい。当業者の判断に従って選択された他の意味の割り当てアレンジメントで十分な場合もある。生成されたメタデータは、所与のデータセットに含まれるデータに関する多くの種類の有用な情報を含むことができる。導出されるメタデータは、例えば、含まれる分布のタイプ、平均値、データ値分散など、データの統計学的性質を含んでよい。導出されるメタデータは、時系列データ、他の同様のデータフィールド相互関係、および様々な他のデータフィールド相互関係の表示を含んでもよい。本発明の態様によれば、導出されるメタデータは、データが以前どのように使用されたか、および、それが他のどの問い合わせをサポートしたかに関する(既知のデータマイニング技法で導出されるような)情報を含むこともできる。導出されるメタデータは、(元のコンテンツプロバイダの肯定的な同意が確認された場合に、)提供される確認済みの同意に従って、製品のマーケティングおよび新しいマーケティングチャネルの開設に有用であり得るか、そうでなければ許容可能であり得る、個人を識別できる情報を提供してもよい。導出されるメタデータは、トピックのドメイン、集約された性別、年齢層、および地理的分布などを含む、データ内で見られるコンテンツの人口統計表現に関する情報を含んでよい。所与のデータセットの導出されるメタデータは、データセットコンテンツの要約を提示し、データセットが良く適しているデータ使用の表示を提供する。例えば、導出されるメタデータは、所与のデータセットが特定のドメイン、特定の人口統計範囲、および地理的関連の質問などに関する質問に回答するのに良く適していることを示してよい。データセットが所与のデータ使用に良く適しているほど、それらのデータ使用目標を持つユーザにとってデータセットが有する値は高くなる。
サーバコンピュータ102は、予め定められた適合性閾値を超えるフィールド適合性値(FSV)を有するデータセットを識別するデータセットフィールド適合性査定モジュール(DFSAM)118を含む。FSVは、PDAM112により決定されるターゲットデータフィールドに対して、所与のデータセット110に関する導出されるメタデータで示されるフィールドにより計算されて、データセットに含まれるフィールドと、好ましいターゲットデータフィールドとの一致の数を決定する。FSVは、例えば、ターゲットデータフィールドとの意味的類似性が85%または当業者の判断に従って選択される何らかの他の値を超えるクラスラベルの数で測定され得る、データセットフィールドとターゲットデータフィールドとの類似度を示す。下流の計算効率を高めるために、DFSAM118は、FSVが適合性閾値を超える上位k個の候補データセットを決定し、それらの候補データセットを比較データセットとして指定する。
サーバコンピュータ102は、DFSAM118により識別される比較データセットのデータセットメタデータを比較して、それぞれの関連付けられた比較されるデータセットにターゲットデータセット属性を示すコンテンツが含まれる可能性を表す、比較される属性スコア値(CASV)を比較されるデータセットごとに生成する、比較される属性査定モジュール(CAAM)120を含む。CASVは、例えば、当該ターゲットデータセット属性との意味的類似性が85%(または、当業者の判断に従って選択される何らかの他の値)を超えるデータセット属性の数を決定することにより決定される。サーバコンピュータ102は、ターゲット属性に従って候補データセットメタデータセットをランク付けし、かつ、スコア値により索引付けされる、候補データセットのランク付けリストを生成する、候補データセットランク付けモジュール(CDRM)122を含む。なお、様々なデータセット属性が、異なるデータ使用ドキュメント108に適用されると異なる影響重みを有してよく、これらの様々な属性の影響重みは、決定されたメタデータに含まれる様々なフィールドまたは他の属性に関連付けられるデータセット属性の望ましさの値として表されてよい。サーバコンピュータ102は、比較される属性スコア値が最も高い比較されるデータセットを、選択されるデータセットとして指定する、最上位のデータセットセレクタを含む。
一例として、本発明の態様によれば、2つの比較データセットに関するメタデータの査定は、データセットにターゲットデータセット属性(例えば、「データセット値範囲」および「データセット完全性」)を示すコンテンツが含まれることを示してよい。「データセット値範囲」属性が有する、ユーザにより(例えば、データ使用ドキュメントを介して)示されるデータセット属性の望ましさの値が、「データセット完全性」属性より高い(例えば、所与のユーザにとってより有用な)場合は、「データセット値範囲」スコアのより高い(例えば、値の範囲がより広い)データセットが、値範囲のスコア値のより低い(例えば、値の範囲がより狭い)データセットよりも、関連付けられるユーザのニーズおよび嗜好を満たすのにより適しているとランク付けされる。同じ例において、「データセット完全性」スコアのより高いデータセットは、より適しているとランク付けされない場合がある。なぜなら、「データセット完全性」属性は、「データセット値範囲」ほど重要でないからである。この例では、重み付けの低い「データセット完全性」属性に関するスコアが他のデータセットと比較して相対的に高いだけでは、関連付けられるデータセットに関するランク付けを確実に高くするのに十分ではない。ただし、この例では、相対的に高い「データセット完全性」属性スコアに関連付けられるデータセットが、他の比較されるデータセットの平均属性スコア値より高い、平均してより高い一組の属性スコアを有することが示される場合は、そのデータセットは、CDRM122により上位にランク付けされ得ることが依然として考えられる。
サーバコンピュータ102は、過去のデータフィールドを更新する過去の使用ログ更新モジュール(HULUM)124も含み、その結果、選択されるデータセットの将来の使用が歴史的なコンテキストにより提供されるより高い精度で評価される。本発明の態様によれば、メタデータセットにおける過去の使用フィールドは、検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられ、データセットが選択されるデータセットになるたびに、検索パラメータで更新される。なお、本発明の態様によれば、異なるビジネスアプリケーションにおけるデータおよびその過去の利用が(例えば、HULUM124、および、選択されるデータセットメタデータおよび過去の使用更新モジュール126により)追跡されてよく、(図4の440に概略的に示すように)豊富なメタデータを開発するために使用されてよい。例えば、ビジネスアプリケーションの進行中のデータ使用が、データ使用の関連付けられるドメインと利用頻度とを識別するために使用され得る。これは、(例えば、HULUM124、および、選択されるデータセットメタデータおよび過去の使用更新モジュール126を介して)メタデータとしてデータセットに戻されてよく、将来の検索は、この拡大し続けるメタデータコンテンツの集合に基づいたものであってよい。データセットコンテンツを使用してデータセットを検索することが知られている。本発明の態様によれば、ファセット(例えば、ターゲットデータセット属性)がデータセット検索基準として含まれる。例えば、「空集合エントリの数」と呼ばれるファセットが、所与のデータセットの各記録に存在する空(例えば、空集合)フィールドの数を捕獲する場合がある。本発明の態様によれば、メタデータ内で識別されるファセットを有することで、ユーザは、そのファセットを示すデータセットへの嗜好を示す(例えば、高い属性の望ましさの値を示す)ことができる。例えば、所与のユーザのニーズが空集合記録エントリの数が少ないデータセットへの嗜好を示している場合は、空集合記録エントリの数が相対的に少ないデータセットは、空集合記録エントリがより多いデータセットと比べて、CDRM122によってより上位に(例えば、よりユーザに適しており、データ要件のニーズとユーザの嗜好とを満たす可能性がより高いと)ランク付けされる。本発明の態様によれば、特定のターゲットデータセット属性(例えば、ファセット)を、選択されるデータセットとしてデータセットを識別するための要件として、直接識別することもできる。
ここで図2を特別参照し、他の図を一般参照すると、本発明の態様に係るデータセットコンテンツおよび所望のデータ属性に従って複数のデータセットをランク付けする方法が示されている。サーバコンピュータ102は、ブロック202で、PDAM112を介して、(上述のように)図識別子、BPELリーダ、およびUML査定ツールを使用して一組のプロセスドキュメントから一組のターゲットデータフィールドを識別して、ドキュメントをレビューおよびマイニングして、ターゲットデータフィールドを識別する。
サーバコンピュータ102は、ブロック204で、データ使用ドキュメント分析モジュールDUDAM114を介して、(上述のように)一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別する。サーバコンピュータ102は、ブロック206で、メタデータ生成モジュール(MGM)116を介して、関連付けられる複数のデータセットに関する複数のメタデータセットと、関連付けられる複数のデータセットとを生成する。サーバコンピュータ102は、ブロック208で、DFSAM118を介して、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定し、フィールド適合性値(FSV)は、(導出されるメタデータ情報を介して)当該データセットに関連付けられる一組のフィールドと、一組のターゲットデータフィールドとの類似度を表す。サーバコンピュータ102は、ブロック210でCAAM120を介して、各比較データセットがターゲットデータセット属性を示す可能性を決定する。
サーバコンピュータ102は、ブロック212で、CDRM122を介して、当該比較される属性スコア値に少なくとも部分的に基づいて、候補データセットをランク付けする。サーバコンピュータ102は、ブロック214およびブロック216で、選択されるデータセットメタデータおよび過去の使用更新モジュール126を介して、選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立し、検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられるメタデータセットにおける過去の使用フィールドを更新する。サーバコンピュータ102は、ブロック218で、選択されるデータセットプレゼンタ128を介して、選択されるデータセット218を提示する。本発明の態様によれば、検索コンテキスト値は、特定のデータセットが以前に使用されたドメインに関する情報を提供する数値コードであってよい。検索コンテキスト値は、構造化されていないテキスト文字列であってもよく、提供されるデータセットに関する他の以前の使用(共同で使用される他のデータセットを含む)の態様を表す可能性がある。
ここで図3Aを参照すると、システム100の大まかな概要310が示されている。特に、ビジネス要件、データセット、およびメタデータが、処理のためにデータ値エンジンに入力として提供される。本発明の態様によれば、データ値エンジンは、ランク付けされるデータセット、データ値、およびファセットのランク付けを出力として提供する。本発明の態様によれば、メタデータは、所与のデータセットのデータに関する情報(例えば、所与のデータセットに関連付けられるドメインなど)を含む。メタデータは、データと一緒に複数の異なる形で記憶され得る。多くのオブジェクト記憶アレンジメントでは、データがオブジェクトとして記憶され、メタデータが、データオブジェクトに関連付けられるキーと値のペアとして記憶される。メタデータは主に、様々なデータオブジェクトに関する更なる洞察および情報を提供するデータエキスパートからの入力を用いて、データ自体の中からまたは手動で識別される(例えば、当業者により選択される分析アルゴリズムまたは同様のルーチンなどの自動化メカニズムを用いて抽出される)。本発明の態様によれば、スコアは、メタデータにおけるファセット(例えば、属性または特徴)の相対的な重要性を表す数値である。ファセットは、自動化を通じて導出されるか、ドメインエキスパートにより提供される入力の一部としてデータセットに追加される、データ性質である。2つのデータセットが利用可能である場合は、アプリケーションの特定の要件により適したデータセットが、スコアのより高いデータセットである。本発明の態様によれば、コンテンツフィールド属性と、好ましいデータセット属性(例えば、ファセット)の存在とに従って、スコアを生成し、データセットをランク付けするのが好ましい。ランク付けによって、全ての特徴の中から、所与のデータセットに関する所与のファセットの相対的な重要性が識別される。ランク付けによって、所与のユーザのデータニーズに関するデータセットの適合性が確立されたときに、様々なファセットの相対的な位置付けも決定される。例えば、「空値」属性に関するデータセットスコアは、関連付けられるデータセットに多くの空集合記録があることを示す。次に、サーバコンピュータ102は、スコアを属性ごとに使用し、様々な比較されるデータセット間で、かつ、各データセット内でも、(例えば、CDRM122を介して)属性をランク付けする。
ここで図3Bを参照すると、使用されているシステム100の例の概略図320が示されている。特に、特定の種類の情報(アンケート内に配置される1つの質問または一群の質問、および他のデータ要件で表される)の要求がデータ値エンジンに渡される。幾つかのデータセット(例えば、「HRデータ」、「顧客データセット」、および「クリック分析」)、および関連付けられるデータセットメタデータも、データ値エンジンに提供される。データ値エンジンは、入力を処理し、提供されるデータセットを適合性に従って評価し、決定された適合性に従ってランク付けされるデータセットのリストを提供する。示されている例では、「HRデータ」データセットが、決定されるデータ値が50の最上位のデータセットであり、「クリック分析」データセットが、決定されるデータ値が46の中間ランクのデータセットであり、「顧客」データセットが、決定されるデータ値が35の最下位のデータセットである。
ここで図4を参照しながら、システムの態様が複数のステージに配置された状態で示される、システム100の概略的な概要について説明する。特に、第1ステージ410は、「ステージ1:ビジネスドキュメンテーションおよびプロセス分析エンジン」と総称される本発明のある実施形態の態様を表す。ここでは、エンティティおよびアクティビティの抽出のために、BPELドキュメント、実装アーチファクト、UML、および様々なコンポーネント図が処理される。第1ステージ410に関連付けられる発見ユニットは、入力として提供されるプロセスドキュメントに表されるように、所与のユーザの確立された慣例および要件に従ってシステムアクティビティをサポートするために必要なフィールドの識別に適したアクティビティ図ロケータおよびクラス図ロケータを含む。第2ステージ420は、「ステージ2:データセット値評価エンジン」と総称される本発明のある実施形態の態様を表す。ここでは、第1ステージ410で識別されるターゲットフィールドと、第3ステージ430で識別される(以下でより完全に説明する)データセットターゲット属性(例えば、データセットファセット)とを含む、様々なフィールド要件および所望のデータセット特質が、既知のNLP、機械学習比較、およびコンピュータ化された分析の他の方法を使用して、提供されるデータセットをそれぞれが記述するメタデータセットと比較される。データセット適合性値はデータセットごとに決定され、データセットはこれらの値に従ってランク付けされる。第3ステージ430は、「ステージ3:ビジネスインタラクティブデータセット推奨エンジン」と総称される本発明のある実施形態の態様を表す。ここでは、様々なビジネス要件の質問、関連付けられる回答、および関連するシステムアーチファクトマッピングが、上述のような使用のためにデータセット評価エンジン420に渡される。第4ステージ440は、「ステージ4:データ使用の履歴」と総称される本発明のある実施形態の態様を表す。ここでは、これまでの記録されたデータセット使用と、その使用を記述する抽出されたメタデータとが、データセット適合性値を決定するときの補足的考慮のために第2ステージ420に渡される。特に、第4ステージ440の出力は、第2ステージ420の評価エンジンがこれまでのデータセット使用および過去のスコア値のメタデータを含むことを可能にすることにより、過去の見通しと、関連付けられるスコア精度の向上とを提供する。このステージは、複数回にわたって使用を繰り返すことでシステムにますます多くの見通しを提供し、使用の増加に伴いシステム100がより正確になることを可能にする。
ここで図5を参照すると、システム100の代替図がシステムの態様が例示的なワークフローアウトライン500に従って配置された状態で示されている。特に、ビジネスアンケート情報およびビジネスプロセス情報が、事業主からアクティビティ識別フェーズに渡される。ここでは、ターゲットデータファセットおよび必要なシステムクラスが識別される。次に、ビジネスメトリックからデータへのコンバータが、ビジネスおよびデータフィールドからの必要なファセットをデータフィールド識別子に提供し、ファセット評定が生成される。ファセット評定はデータセット評定フェーズに渡され、ここでは、データセットランカがデータセットのランク付けを提供する。次に、この情報は出力として事業主に戻される。
ここで図6を参照すると、本発明の実施形態に従って生成される「データ値」エントリおよび「データランク付け」エントリのサンプル実施形態の態様の概略図600が示されている。特に、エントリは、本発明の態様に従って、データセット値と、関連付けられるデータセットのランク付けとを識別および比較するのに有用な、一組のJSON形式のキーと値のペアリングの表示を提供する。なお、当業者の判断に従って他の形式が選択されてもよい。
ここで図7を参照すると、アカウントの減少を査定している会計シナリオのビジネス要件に関する例示的なアンケート700(およびサンプル回答)が示されている。サーバコンピュータ102は、(例えば、DUDAM114を介して)回答を収集および処理する。アンケートの質問に応答して提供される回答には、関連付けられる企業が収集したがるかもしれない情報の種類が反映される。ビジネスに関連付けられるユーザにより提供される回答は、ターゲットデータセット属性を決定するために使用される。
フローチャートおよびブロック図に関して、本開示の図におけるフローチャートおよびブロック図は、本発明の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の考えられる実装のアーキテクチャ、機能、および運用を示す。この際、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表してよい。幾つかの代替的な実装では、ブロックに記載される機能が、図に記載される順序とは別の順序で行われてよい。例えば、関連する機能に応じて、連続して示される2つのブロックが、実際には、実質的に同時に実行されてもよいし、これらのブロックが、逆の順序で実行される場合があってもよい。ブロック図もしくはフローチャート図またはその両方の各ブロック、並びに、ブロック図もしくはフローチャート図またはその両方におけるブロックの組み合わせが、指定された機能または動作を実行するか、特殊目的ハードウェアとコンピュータ命令との組み合わせを実行する、特殊目的ハードウェアベースのシステムにより実装され得ることにも気が付くであろう。
図8を参照すると、システムまたはコンピュータ環境1000が、一般的なコンピューティングデバイスの形で示されるコンピュータ図1010を含む。例えば、本発明の方法は、例えば、概してメモリ1030、より具体的にはコンピュータ可読記憶媒体1050と呼ばれる、コンピュータ可読記憶デバイス、またはコンピュータ可読記憶媒体上に具現化される、プログラム命令を含むプログラム1060に具現化されてよい。そのようなメモリもしくはコンピュータ可読記憶媒体またはその両方は、不揮発性メモリまたは不揮発性記憶装置を含む。例えば、メモリ1030は、RAM(Random Access Memory)またはROM(Read Only Memory)などの記憶媒体1034と、キャッシュメモリ1038とを含むことができる。プログラム1060は、(プログラムステップ、コード、またはプログラムコードを実行するために)コンピュータシステム1010のプロセッサ1020で実行可能である。データ1114を含むデータベース1110として、更なるデータ記憶装置が具現化されてもよい。コンピュータシステム1010およびプログラム1060は、ユーザにとってローカルであっても、リモートサービスとして(例えば、クラウドベースのサービスとして)提供されてもよい、コンピュータおよびプログラムの一般的な表現であり、通信ネットワーク1200を使用して(例えば、ネットワーク、インターネット、またはクラウドサービスと相互作用して)アクセス可能なウェブサイトを使用して、更なる例で提供されてよい。本明細書において、コンピュータシステム1010はまた、ラップトップコンピュータまたはデスクトップコンピュータなどといった、コンピュータデバイスもしくはデバイスに含まれるコンピュータ、または、1つまたは複数のサーバを、単独でまたはデータセンタの一部として一般的に表すことが解る。コンピュータシステムは、ネットワークアダプタ/インタフェース1026および入出力(I/O)インタフェース1022を含むことができる。I/Oインタフェース1022は、コンピュータシステムに接続され得る外部デバイス1074とのデータの入出力を可能にする。ネットワークアダプタ/インタフェース1026は、コンピュータシステムと、通信ネットワーク1200として一般的に示されるネットワークとの間の通信を提供してよい。
コンピュータ1010は、コンピュータシステムにより実行されている、プログラムモジュールなどのコンピュータシステム実行可能命令の一般的なコンテキストで説明されてよい。概して、プログラムモジュールは、特定のタスクを実行するか、特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、およびデータ構造などを含んでよい。方法のステップと、システムのコンポーネントおよび技法とは、方法のステップおよびシステムの各々のタスクを実行するためのプログラム1060のモジュールに具現化されてよい。モジュールは一般的に、プログラムモジュール1064として図に表される。プログラム1060およびプログラムモジュール1064は、プログラムの特定のステップ、ルーチン、サブルーチン、命令、またはコードを実行することができる。
本開示の方法は、モバイルデバイスなどのデバイス上でローカルに実行されてもよいし、例えば、リモートであり得ると同時に通信ネットワーク1200を使用してアクセスされ得るサーバ1100上で、サービスを実行してもよい。プログラムまたは実行可能命令は、プロバイダによりサービスとして提供されてもよい。コンピュータ1010は、通信ネットワーク1200を介してリンクされるリモート処理デバイスによりタスクが実行される分散型クラウドコンピューティング環境で実施されてよい。分散型クラウドコンピューティング環境では、プログラムモジュールが、メモリ記憶デバイスを含む、ローカルなコンピュータシステム記憶媒体およびリモートのコンピュータシステム記憶媒体の両方に配置されてよい。
コンピュータ1010は、様々なコンピュータ可読媒体を含むことができる。そのような媒体は、コンピュータ1010(例えば、コンピュータシステムまたはサーバ)によりアクセス可能な任意の利用可能な媒体であってよく、揮発性媒体および不揮発性媒体の両方、並びに、取り外し可能な媒体および取り外し不可能な媒体を含むことができる。コンピュータメモリ1030は、ランダムアクセスメモリ(RAM)1034もしくはキャッシュメモリ1038またはその両方などの、揮発性メモリの形の更なるコンピュータ可読媒体を含むことができる。コンピュータ1010は、他の取り外し可能/取り外し不可能な揮発性/不揮発性のコンピュータ記憶媒体、一例では、ポータブルコンピュータ可読記憶媒体1072を更に含んでよい。一実施形態では、コンピュータ可読記憶媒体1050は、取り外し不可能な不揮発性の磁気媒体に対する読み取りおよび書き込みを行うために提供され得る。コンピュータ可読記憶媒体1050は、例えば、ハードドライブとして具現化され得る。例えば、データ1114を記憶し、かつ、処理ユニット1020と通信するための、記憶システム1110(例えば、データベース)として、更なるメモリおよびデータ記憶装置が提供され得る。データベースは、サーバ1100上に記憶されてもよいし、サーバ1100の一部であってもよい。示されてはいないが、取り外し可能な不揮発性の磁気ディスク(例えば、「フロッピーディスク」)に対する読み取りおよび書き込みを行うための磁気ディスクドライブと、CD-ROM、DVD-ROM、または他の光媒体などの取り外し可能な不揮発性の光ディスクに対する読み取りまたは書き込みを行うための光ディスクドライブとが提供され得る。そのような場合は、各々が1つまたは複数のデータ媒体インタフェースによりバス1014に接続され得る。以下で更に描写および説明するように、メモリ1030は、本発明の実施形態の機能を実行するように構成される1つまたは複数のプログラムモジュールを含み得る少なくとも1つのプログラム製品を含んでよい。
本開示で説明する方法は、例えば、プログラム1060と一般的に呼ばれる1つまたは複数のコンピュータプログラムに具現化されてよく、コンピュータ可読記憶媒体1050内のメモリ1030に記憶され得る。プログラム1060は、プログラムモジュール1064を含むことができる。プログラムモジュール1064は概して、本明細書で説明するような本発明の実施形態の機能もしくは方法論またはその両方を実行することができる。1つまたは複数のプログラム1060は、メモリ1030に記憶され、処理ユニット1020で実行可能である。例として、メモリ1030は、コンピュータ可読記憶媒体1050上にオペレーティングシステム1052、1つまたは複数のアプリケーションプログラム1054、他のプログラムモジュール、およびプログラムデータを記憶してよい。プログラム1060と、コンピュータ可読記憶媒体1050上に記憶されるオペレーティングシステム1052およびアプリケーションプログラム1054とは、処理ユニット1020で同様に実行可能であることが解る。また、アプリケーション1054およびプログラム1060が、一般的に示されるものであり、本開示で説明する1つまたは複数のアプリケーションおよびプログラムの全てを含んでもよいし、その一部であってもよいこと、または、その逆であってもよいこと、すなわち、アプリケーション1054およびプログラム1060が、本開示で説明する1つまたは複数のアプリケーションまたはプログラムの全てであってもよいし、その一部であってもよいことが解る。
1つまたは複数のプログラムを1つまたは複数のコンピュータ可読記憶媒体に記憶することで、プログラムがコンピュータ可読記憶媒体に具現化されるか、もしくは符号化されるか、またはその両方となるようにすることができる。一例では、記憶されたプログラムは、方法を実行するため、または、コンピュータシステムに1つまたは複数の機能を実行させるために、プロセッサ、またはプロセッサを有するコンピュータシステムで実行するためのプログラム命令を含むことができる。
コンピュータ1010は、キーボード、ポインティングデバイス、ディスプレイ1080などといった1つまたは複数の外部デバイス1074、ユーザがコンピュータ1010と相互作用することを可能にする1つまたは複数のデバイス、もしくは、コンピュータ1010が1つまたは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)、またはその組み合わせと通信してもよい。そのような通信は、入出力(I/O)インタフェース1022を介して行われ得る。なおも更に、コンピュータ1010は、ネットワークアダプタ/インタフェース1026を介して、ローカルエリアネットワーク(LAN)、一般的なワイドエリアネットワーク(WAN)、もしくはパブリックネットワーク(例えば、インターネット)、またはその組み合わせなどの1つまたは複数のネットワーク1200と通信することができる。示されているように、ネットワークアダプタ1026は、バス1014を介してコンピュータ1010の他のコンポーネントと通信する。示されてはいないが、他のハードウェアもしくはソフトウェアコンポーネントまたはその両方がコンピュータ1010と併せて使用され得ることを理解されたい。例には、マイクロコード、デバイスドライバ1024、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ、およびデータアーカイブ記憶システムなどが含まれるが、これらに限定されない。
コンピュータ、またはコンピュータ1010上で実行されているプログラムは、通信ネットワーク1200として具現化される1つまたは複数の通信ネットワークを介して、サーバ1100として具現化されるサーバと通信してよいことが解る。通信ネットワーク1200は、例えば、無線、有線、または光ファイバを含む、伝送媒体およびネットワークリンク、並びに、ルータ、ファイアウォール、スイッチ、およびゲートウェイコンピュータを含んでよい。通信ネットワークは、ワイヤ、無線通信リンク、または光ファイバケーブルなどの接続を含んでよい。通信ネットワークは、ライトウェイトディレクトリアクセスプロトコル(LDAP)、トランスポートコントロールプロトコル/インターネットプロトコル(TCP/IP)、ハイパーテキストトランスポートプロトコル(HTTP)、ワイヤレスアプリケーションプロトコル(WAP)などといった様々なプロトコルを使用して互いに通信する、インターネットなどのネットワークおよびゲートウェイの世界的な集合を表す場合がある。ネットワークは、例えば、イントラネット、ローカルエリアネットワーク(LAN)、またはワイドエリアネットワーク(WAN)などの幾つかの異なるタイプのネットワークを含んでもよい。
一例では、コンピュータは、インターネットを使用してウェブ(ワールドワイドウェブ)上のウェブサイトにアクセスし得るネットワークを使用することができる。一実施形態では、モバイルデバイスを含むコンピュータ1010は、インターネットを含み得る通信システムもしくはネットワーク1200、または、公衆交換電話網(PSTN)、例えば、セルラネットワークを使用することができる。PSTNは、電話回線、光ファイバケーブル、伝送リンク、セルラネットワーク、および通信衛星を含んでよい。インターネットは、携帯電話またはラップトップコンピュータを使用して、テキストメッセージ(SMS)、(SMSに関連する)マルチメディアメッセージングサービス(MMS)、電子メール、またはウェブブラウザを介して検索エンジンにクエリを送信するなど、多数の検索技法およびテキスティング技法を容易にする場合がある。検索エンジンは、検索結果、すなわち、クエリに対応するウェブサイト、ドキュメント、または他のダウンロード可能なデータへのリンクを取得し、同様に、例えば、検索結果のウェブページとして、デバイスを介してユーザに検索結果を提供することができる。
本発明は、任意の考えられる技術的詳細レベルの統合における、システム、方法もしくはコンピュータプログラム製品またはその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有する1または複数のコンピュータ可読記憶媒体を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスで使用する命令を保持および記憶し得る有形のデバイスであってよい。コンピュータ可読記憶媒体は、例えば、以下に限定されるわけではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述のものの任意の適切な組み合わせであってよい。コンピュータ可読記憶媒体のより具体的な例の非包括的な列挙には、ポータブルコンピュータディスケットと、ハードディスクと、ランダムアクセスメモリ(RAM)と、リードオンリメモリ(ROM)と、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)と、スタティックランダムアクセスメモリ(SRAM)と、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)と、デジタル多用途ディスク(DVD)と、メモリスティックと、フロッピーディスクと、パンチカード、または命令を記録した溝内の隆起構造などの、機械的に符号化されたデバイスと、前述のものの任意の適切な組み合わせとが含まれる。コンピュータ可読記憶媒体は、本明細書で使用するとき、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体を介して伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、ワイヤを介して伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれの対応するコンピューティング/処理デバイスにダウンロードされてもよいし、インターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワークまたはその組み合わせなどのネットワークを介して、外部コンピュータまたは外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはその組み合わせを備えてよい。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれの対応するコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためのコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Smalltalk(登録商標)またはC++などといったオブジェクト指向型プログラミング言語と、「C」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語とを含む、1または複数のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で実行されてもよいし、スタンドアロンのソフトウェアパッケージとして部分的にユーザのコンピュータ上で実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、全体的にリモートコンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、その接続が、(例えば、インターネットサービスプロバイダを使用するインターネットを介して)外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラム可能な論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路が、本発明の態様を実行すべく、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行してよい。
本明細書では、本発明の実施形態に係る方法、装置(システム)、およびコンピュータプログラム製品の、フローチャート図もしくはブロック図またはその両方を参照して、本発明の態様が説明されている。フローチャート図もしくはブロック図またはその両方の各ブロックと、フローチャート図もしくはブロック図またはその両方のブロックの組み合わせとは、コンピュータ可読プログラム命令により実装され得ることが解るであろう。
これらのコンピュータ可読プログラム命令をコンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供して機械を生産することで、コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置を介して実行される命令が、フローチャートもしくはブロック図またはその両方の1または複数のブロックで指定された機能/動作を実装するための手段を作成するようにしてよい。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能なデータ処理装置もしくは他のデバイスまたはその組み合わせを特定の方式で機能するよう方向付けることができる、コンピュータ可読記憶媒体に記憶することで、命令を記憶したコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその両方の1または複数のブロックで指定された機能/行為の態様を実装する命令を含む製造品を備えるようにしてもよい。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイス上にロードして、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の動作可能なステップを実行させて、コンピュータ実装過程を生成することで、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその両方の1または複数のブロックで指定された機能/行為を実装するようにしてもよい。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の考えられる実装のアーキテクチャ、機能、および動作を示す。この際、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための1または複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表してよい。幾つかの代替的な実装では、ブロックに記す機能が、図に記す順序とは異なる順序で行われてもよい。例えば、連続して示される2つのブロックが、実際には1つのステップとして達成され、部分的または全体的に時間的に重複する方式で、同時に、実質的に同時に実行されてもよいし、これらのブロックが、関連する機能に応じて逆の順序で実行される場合があってもよい。ブロック図もしくはフローチャート図またはその両方の各ブロック、並びに、ブロック図もしくはフローチャート図またはその両方におけるブロックの組み合わせが、指定された機能または動作を実行するか、特殊目的ハードウェアとコンピュータ命令との組み合わせを実行する、特殊目的ハードウェアベースのシステムにより実装され得ることにも気が付くであろう。
本開示はクラウドコンピューティングに関する詳細な説明を含み得るが、本明細書に列挙される教示の実装がクラウドコンピューティング環境に限定されるわけではないことを理解されたい。むしろ、本発明の実施形態は、現在知られているか、後ほど開発される、任意の他のタイプのコンピューティング環境と組み合わせて実装され得る。
クラウドコンピューティングは、最小限の管理努力またはサービスプロバイダとの相互作用で早急にプロビジョニングおよび解放され得る構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシン、およびサービス)の、共有プールへの便利なオンデマンドネットワークアクセスを可能にするためのサービス提供のモデルである。このクラウドモデルは、少なくとも5つの特性と、少なくとも3つのサービスモデルと、少なくとも4つの展開モデルとを含んでよい。
特性は以下の通りである。
オンデマンドセルフサービス:クラウド消費者は、サービスプロバイダとの人間相互作用を必要とすることなく必要に応じて自動的に、サーバ時間およびネットワーク記憶装置などのコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス:能力はネットワーク経由で利用可能であり、異種のシンクライアントプラットフォームまたはシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準メカニズムを介してアクセスされる。
リソースのプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプーリングされ、複数の異なる物理リソースおよび仮想リソースが、需要に従って動的に割り当てられ、再び割り当てられる。消費者は概して、提供されたリソースの正確な位置を制御することも認識することもないが、より高いレベルの抽象的概念(例えば、国、州、またはデータセンタ)で位置を指定できる場合があるという点で、位置独立性がある。
早急な順応性:能力は、早急かつ順応的に、場合によっては自動的に、プロビジョニングされて迅速にスケールアウトし、早急に解放されて迅速にスケールインすることができる。消費者には、プロビジョニングに利用可能な能力が無制限に見えることが多く、任意の時間に任意の量が購入され得る。
測定されたサービス:クラウドシステムは、サービスのタイプ(例えば、記憶装置、処理、帯域幅、およびアクティブなユーザのアカウント)に適したある抽象化レベルで計測能力を利用することにより、リソースの使用を自動的に制御および最適化する。リソースの使用を監視、制御、および報告して、利用されたサービスのプロバイダおよび消費者の両方に透明性を提供することができる。
サービスモデルは以下の通りである。
Software as a Service(SaaS):消費者に提供される能力は、クラウドインフラストラクチャ上で実行されているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインタフェースを介して様々なクライアントデバイスからアクセス可能である。消費者は、場合によっては、限られたユーザ固有のアプリケーション構成設定を例外として、ネットワーク、サーバ、オペレーティングシステム、記憶装置、または更には個々のアプリケーション能力を含む、土台となるクラウドインフラストラクチャの管理も制御も行わない。
Platform as a Service(PaaS):消費者に提供される能力は、プロバイダによりサポートされるプログラミング言語およびツールを使用して作成される、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、または記憶装置を含む、土台となるクラウドインフラストラクチャの管理も制御も行わないが、展開されたアプリケーションと、場合によっては、アプリケーションホスティング環境の構成とを制御する。
Infrastructure as a Service(IaaS):消費者に提供される能力は、処理と、記憶装置と、ネットワークと、オペレーティングシステムおよびアプリケーションを含み得る、消費者が任意のソフトウェアを展開および実行できる他の基本的なコンピューティングリソースとをプロビジョニングすることである。消費者は、土台となるクラウドインフラストラクチャの管理も制御も行わないが、オペレーティングシステム、記憶装置、展開されたアプリケーションを制御し、場合によっては、厳選のネットワーキングコンポーネント(例えば、ホストファイアウォール)を限定的に制御する。
展開モデルは以下の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。それは、組織またはサードパーティにより管理されてよく、オンプレミスまたはオフプレミスに存在してよい。
コミュニティクラウド:クラウドインフラストラクチャは、幾つかの組織により共有され、懸念事項(例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンスの考慮事項)を共有している特定のコミュニティをサポートする。それは、組織またはサードパーティにより管理されてよく、オンプレミスまたはオフプレミスに存在してよい。
パブリッククラウド:クラウドインフラストラクチャは、一般人または大規模な業界団体が利用できるようになっており、クラウドサービスを販売する組織により所有される。
ハイブリッドクラウド:クラウドインフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーションの移植性(例えば、クラウド間の負荷分散のためのクラウドバースティング)を実現する標準技術または特許技術により結び付けられている、2つまたはそれより多くのクラウド(プライベート、コミュニティ、またはパブリック)の構成である。
クラウドコンピューティング環境は、ステートレス状態、低結合、モジュール性、および意味相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
ここで図9を参照すると、例示的なクラウドコンピューティング環境2050が示されている。示されているように、クラウドコンピューティング環境2050は、例えば、携帯用情報端末(PDA)もしくはセルラ電話2054A、デスクトップコンピュータ2054B、ラップトップコンピュータ2054Cもしくは自動車コンピュータシステム2054Nまたはその組み合わせなどの、クラウド消費者により使用されるローカルコンピューティングデバイスが通信し得る1または複数のクラウドコンピューティングノード2010を含む。ノード2010は互いに通信してよい。それらは、上述のようなプライベートクラウド、コミュニティクラウド、パブリッククラウドもしくはハイブリッドクラウド、またはその組み合わせなどの、1または複数のネットワークで、物理的または仮想的にグループ化(不図示)されてよい。これによって、クラウドコンピューティング環境2050は、クラウド消費者がローカルコンピューティングデバイス上でリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせを提供することができる。図9に示すコンピューティングデバイス2054A~Nのタイプは、単に例示を意図するものであり、コンピューティングノード2010およびクラウドコンピューティング環境2050は、任意のタイプのネットワークもしくはネットワークアドレス可能接続またはその両方を介して(例えば、ウェブブラウザを使用して)、任意のタイプのコンピュータ化されたデバイスと通信できることが解る。
ここで図10を参照すると、クラウドコンピューティング環境2050(図9)により提供される一組の関数抽象化層が示されている。図10に示すコンポーネント、層、および機能は単に例示を意図するものであり、本発明の実施形態はそれに限定されないことを予め理解されたい。示されているように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層2060が、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム2061、RISC(Reduced Instruction Set Computer:縮小命令セットコンピュータ)アーキテクチャベースのサーバ2062、サーバ2063、ブレードサーバ2064、記憶デバイス2065、および、ネットワークおよびネットワーキングコンポーネント2066が含まれる。幾つかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア2067およびデータベースソフトウェア2068を含む。
仮想化層2070は、仮想サーバ2071、仮想記憶装置2072、仮想プライベートネットワークを含む仮想ネットワーク2073、仮想アプリケーションおよびオペレーティングシステム2074、および仮想クライアント2075といった、仮想エンティティの例の提供元であり得る抽象化層を提供する。
一例では、管理層2080が下記の機能を提供してよい。リソースプロビジョニング2081は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を提供する。計測および価格設定2082は、リソースがクラウドコンピューティング環境内で利用される際のコスト追跡と、これらのリソースの消費に対する請求または送り状作成とを提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウド消費者およびタスクのアイデンティティ検証、並びに、データおよび他のリソースの保護を提供する。ユーザポータル2083は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービス水準管理2084は、必要なサービス水準が満たされるように、クラウドコンピューティングリソースの配分および管理を提供する。サービス水準合意(SLA)の計画および履行2085は、SLAに従って将来の要件が予想されるクラウドコンピューティングリソースに関する事前アレンジメントおよびその調達を提供する。
作業負荷層2090は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得る作業負荷および機能の例には、マッピングおよびナビゲーション2091、ソフトウェア開発およびライフサイクル管理2092、仮想教室教育の提供2093、データ分析処理2094、トランザクション処理2095、およびデータセットコンテンツおよび所望のデータ属性に従って複数のデータセットをランク付けする自動化方法2096が含まれる。
本発明の様々な実施形態の説明は、例示を目的として提示されているが、包括的であることを意図するものでも、開示されている実施形態に限定されることを意図するものでもない。同様に、本明細書で説明する本開示の実施形態の特徴または機能の例は、特定の実施形態の説明に使用されるか、例として列挙されるかに関わらず、本明細書で説明する本開示の実施形態を限定することを意図するものでも、本明細書で説明する例に本開示を限定することを意図するものでもない。説明されている実施形態の範囲および主旨から逸脱することのない多くの修正および変形が、当業者には明らかであろう。本明細書で使用する専門用語は、実施形態の原理、実際の適用、もしくは市場で見られる技術に対する技術的改善点を最も良く説明するように、または、当業者が本明細書で開示する実施形態を理解できるように選択された。

Claims (20)

  1. データセット属性に従って複数のデータセットをソートするコンピュータ実装方法であって、
    コンピュータが、一組のプロセスドキュメントから一組のターゲットデータフィールドを識別する段階であって、前記プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、段階と、
    前記コンピュータが、一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別する段階であって、前記データ使用ドキュメントは、前記ユーザに関するデータスコープ嗜好を示す、段階と、
    コンピュータが、関連付けられる複数のデータセットに関する複数のメタデータセットを生成する段階と
    前記コンピュータが、予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定する段階であって、前記フィールド適合性値は、データセットに関連付けられる一組のフィールドと、前記一組のターゲットデータフィールドとの類似度を表す、段階と、
    前記コンピュータが、前記ターゲットデータセット属性に関して、前記関連付けられるメタデータセットを候補データセットごとに査定し、かつ、前記コンピュータが、関連付けられるデータセットに前記ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成する段階と、
    前記コンピュータが、前記比較される属性スコア別にソートされる前記候補データセットのリストを生成する段階と
    を備える方法。
  2. 前記データ使用ドキュメントは、ビジネスプロセス実行言語(BEPL)および統一モデリング言語(UML)で構成されるリストから選択される形式の情報を含む、請求項1に記載の方法。
  3. 前記ターゲットデータセット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、前記プロセスドキュメントの要素から抽出される、請求項1または2に記載の方法。
  4. 比較される属性スコアが最も高い候補データセットを、選択されるデータセットとして指定する段階を更に備える、請求項1から3のいずれか一項に記載の方法。
  5. 前記選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立する段階と、前記検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられる前記メタデータセットにおける過去の使用フィールドを更新する段階とを更に備える、請求項4に記載の方法。
  6. ランク付けは、前記過去の使用フィールド値に少なくとも部分的に基づいている、請求項5に記載の方法。
  7. 前記比較される属性スコアは、前記ターゲットデータセット属性の各々に関連付けられる、関連付けられる望ましさの値に少なくとも部分的に基づいている、請求項1から6のいずれか一項に記載の方法。
  8. 前記メタデータセットは、ドメイン、性別、年齢層、地理的分布、人口統計学的分布、数値の統計学的範囲、および適用可能性のコンテキストで構成されるリストから選択される情報を含む、請求項1から7のいずれか一項に記載の方法。
  9. データセット属性に従って複数のデータセットをソートするシステムであって、前記システムは、
    プログラム命令が共に具現化されたコンピュータ可読記憶媒体を有するコンピュータシステムを備え、コンピュータで実行可能な前記プログラム命令は、前記コンピュータに、
    一組のプロセスドキュメントから一組のターゲットデータフィールドを識別することであって、前記プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、識別することと、
    一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別することであって、前記データ使用ドキュメントは、前記ユーザに関するデータスコープ嗜好を示す、識別することと、
    関連付けられる複数のデータセットに関する複数のメタデータセットを生成することと、
    予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定することであって、前記フィールド適合性値は、データセットに関連付けられる一組のフィールドと、前記一組のターゲットデータフィールドとの類似度を表す、決定することと、
    前記ターゲットデータセット属性に関して、前記関連付けられるメタデータセットを候補データセットごとに査定し、かつ、関連付けられるデータセットに前記ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成することと、
    前記比較される属性スコア別にソートされる前記候補データセットのリストを生成することと
    を行わせる、
    システム。
  10. 前記データ使用ドキュメントは、ビジネスプロセス実行言語(BEPL)および統一モデリング言語(UML)で構成されるリストから選択される形式の情報を含む、請求項9に記載のシステム。
  11. 前記ターゲットデータセット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、前記プロセスドキュメントの要素から抽出される、請求項9または10に記載のシステム。
  12. 比較される属性スコアが最も高い候補データセットを、選択されるデータセットとして指定するための、前記コンピュータに対する命令を更に備える、請求項9から11のいずれか一項に記載のシステム。
  13. 前記選択されるデータセットに対して実施される検索のための一組の検索パラメータを確立することと、前記検索パラメータの態様を表す検索コンテキスト値での検索のために選択されるデータセットに関連付けられる前記メタデータセットにおける過去の使用フィールドを更新することとを行うための、前記コンピュータに対する命令を更に備える、請求項12に記載のシステム。
  14. ランク付けは、前記過去の使用フィールド値に少なくとも部分的に基づいている、請求項13に記載のシステム。
  15. 前記比較される属性スコアは、前記ターゲットデータセット属性の各々に関連付けられる、関連付けられる望ましさの値に少なくとも部分的に基づいている、請求項9から14のいずれか一項に記載のシステム。
  16. 前記メタデータセットは、ドメイン、性別、年齢層、地理的分布、人口統計学的分布、数値の統計学的範囲、および適用可能性のコンテキストで構成されるリストから選択される情報を含む、請求項9から15のいずれか一項に記載のシステム。
  17. コンピュータに、
    一組のプロセスドキュメントから一組のターゲットデータフィールドを識別する手順であって、前記プロセスドキュメントは、ユーザのデータフィールド嗜好を示す、手順と、
    一組のデータ使用ドキュメントから一組のターゲットデータセット属性を識別する手順であって、前記データ使用ドキュメントは、前記ユーザに関するデータスコープ嗜好を示す、手順と、
    関連付けられる複数のデータセットに関する複数のメタデータセットを生成する手順と、
    予め定められた適合性閾値を超えるフィールド適合性値を有する候補データセットを決定する手順であって、前記フィールド適合性値は、データセットに関連付けられる一組のフィールドと、前記一組のターゲットデータフィールドとの類似度を表す、手順と、
    前記ターゲットデータセット属性に関して、前記関連付けられるメタデータセットを候補データセットごとに査定し、かつ、関連付けられるデータセットに前記ターゲットデータセット属性を示すコンテンツが含まれることになる可能性を示す、比較される属性スコアを、候補データセットごとに生成する手順と、
    前記比較される属性スコア別にソートされる前記候補データセットのリストを生成する手順と
    実行させるためのコンピュータプログラム。
  18. 前記データ使用ドキュメントは、ビジネスプロセス実行言語(BEPL)および統一モデリング言語(UML)で構成されるリストから選択される形式の情報を含む、請求項17に記載のコンピュータプログラム。
  19. 前記ターゲットデータセット属性は、クラス図、アクティビティ図、シーケンス図、およびコンポーネント図で構成されるリストから選択される、前記プロセスドキュメントの要素から抽出される、請求項17または18に記載のコンピュータプログラム。
  20. 前記コンピュータに、
    比較される属性スコアが最も高い候補データセットを、選択されるデータセットとして指定する手順を更に実行させる、請求項17から19のいずれか一項に記載のコンピュータプログラム。
JP2021202946A 2020-12-17 2021-12-14 コンピュータ実装方法、コンピュータシステムおよびコンピュータプログラム(データ属性に基づくデータセットのランク付け) Pending JP2022096632A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/125,935 US11436237B2 (en) 2020-12-17 2020-12-17 Ranking datasets based on data attributes
US17/125,935 2020-12-17

Publications (1)

Publication Number Publication Date
JP2022096632A true JP2022096632A (ja) 2022-06-29

Family

ID=80038610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021202946A Pending JP2022096632A (ja) 2020-12-17 2021-12-14 コンピュータ実装方法、コンピュータシステムおよびコンピュータプログラム(データ属性に基づくデータセットのランク付け)

Country Status (4)

Country Link
US (1) US11436237B2 (ja)
JP (1) JP2022096632A (ja)
CN (1) CN114647627A (ja)
GB (1) GB2603609A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114942819B (zh) * 2022-07-22 2022-11-11 浙江中控技术股份有限公司 数据字段处理方法、电子设备及计算机可读存储介质
CN116578602B (zh) * 2023-06-15 2024-03-12 深圳计算科学研究院 一种时序排序方法及装置
CN117632963B (zh) * 2023-11-29 2024-09-17 数翊科技(北京)有限公司 一种建表方法、系统及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8472330B2 (en) * 2007-06-22 2013-06-25 International Business Machines Corporation System and method for determining and optimizing resources of a data processing system utilized by a service request
US20160328406A1 (en) 2015-05-08 2016-11-10 Informatica Llc Interactive recommendation of data sets for data analysis
US10540400B2 (en) 2015-06-16 2020-01-21 Business Objects Software, Ltd. Providing suggestions based on user context while exploring a dataset
US10289622B2 (en) * 2015-11-24 2019-05-14 Sap Se Ranking using data of continuous scales
US10528522B1 (en) 2016-03-17 2020-01-07 EMC IP Holding Company LLC Metadata-based data valuation
US10417439B2 (en) 2016-04-08 2019-09-17 Google Llc Post-hoc management of datasets
US10339147B1 (en) * 2016-06-22 2019-07-02 Amazon Technologies, Inc. Data set scoring
EP3673383A4 (en) * 2017-10-10 2021-01-20 Thoughtspot Inc. AUTOMATIC DATABASE ANALYSIS
US10733212B2 (en) * 2017-10-16 2020-08-04 Salesforce.Com, Inc. Entity identifier clustering based on context scores
US11080272B2 (en) * 2019-06-28 2021-08-03 Microsoft Technology Licensing, Llc Entity resolution techniques for matching entity records from different data sources
US11210285B2 (en) * 2020-03-06 2021-12-28 Ab Initio Technology Llc Generation of optimized logic from a schema

Also Published As

Publication number Publication date
GB202117333D0 (en) 2022-01-12
CN114647627A (zh) 2022-06-21
US20220197914A1 (en) 2022-06-23
GB2603609A (en) 2022-08-10
US11436237B2 (en) 2022-09-06

Similar Documents

Publication Publication Date Title
US20230039354A1 (en) System and method for providing unified workflows integrating multiple computer network resources
US11321759B2 (en) Method, computer program product and system for enabling personalized recommendations using intelligent dialog
US11216509B2 (en) Dynamic faceting for personalized search and discovery
US10091324B2 (en) Content feed for facilitating topic discovery in social networking environments
US10937060B2 (en) Intelligent location based notification
US11436237B2 (en) Ranking datasets based on data attributes
US11514124B2 (en) Personalizing a search query using social media
US20150142507A1 (en) Recommendation system for specifying and achieving goals
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
US20210263978A1 (en) Intelligent interface accelerating
US20220051049A1 (en) Using meta-learning to optimize automatic selection of machine learning pipelines
US20220198222A1 (en) Automated generation of machine learning model pipeline combinations
JP7350590B2 (ja) 反復的な人工知能を用いて、通信決定木を通る経路の方向を指定する
US11269844B2 (en) Automated data labeling
US11934891B2 (en) APIA configuration using auto-rationalization and modeling
Kontogianni et al. Designing a smart tourism mobile application: User modelling through social networks’ user implicit data
US20190087915A1 (en) Expertise determination based on shared social media content
US11397715B2 (en) Defining indexing fields for matching data entities
US11620334B2 (en) Commercial video summaries using crowd annotation
US11436287B2 (en) Computerized grouping of news articles by activity and associated phase of focus
US20200242494A1 (en) Corpus Gap Probability Modeling
US20170085657A1 (en) Location-based recommendation generator
WO2022257610A1 (en) Cognitive analysis of hierarchical database elements for generation of microservices
US20220284319A1 (en) Intelligent guidance using machine learning for user navigation of multiple web pages
US11755633B2 (en) Entity search system

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240620