JP5525541B2 - データ管理システム内のデータセットのインスタンスのマッピング - Google Patents

データ管理システム内のデータセットのインスタンスのマッピング Download PDF

Info

Publication number
JP5525541B2
JP5525541B2 JP2011539631A JP2011539631A JP5525541B2 JP 5525541 B2 JP5525541 B2 JP 5525541B2 JP 2011539631 A JP2011539631 A JP 2011539631A JP 2011539631 A JP2011539631 A JP 2011539631A JP 5525541 B2 JP5525541 B2 JP 5525541B2
Authority
JP
Japan
Prior art keywords
data
data set
candidate
set candidate
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011539631A
Other languages
English (en)
Other versions
JP2012510687A (ja
JP2012510687A5 (ja
Inventor
ティム ウェイクリング
アダム ワイス
Original Assignee
アビニシオ テクノロジー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アビニシオ テクノロジー エルエルシー filed Critical アビニシオ テクノロジー エルエルシー
Publication of JP2012510687A publication Critical patent/JP2012510687A/ja
Publication of JP2012510687A5 publication Critical patent/JP2012510687A5/ja
Application granted granted Critical
Publication of JP5525541B2 publication Critical patent/JP5525541B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control

Description

本発明はデータ管理システム内のデータセット(データセット)のインスタンス(instance)のマッピングに関する。
近年のデータ管理システムは、そのシステムの異なる特徴を表す多数の要素を含む。より複雑でないシステムは、しばしば、正確な視覚化の目的のために追加の処理なしでデータを直接見られることを可能にする。より複雑なシステムは、意味あるようにデータを見ることができるようにするために追加のメカニズムを必要とするであろう。多くの要素よりなる複雑なデータ管理システムは、データを多く異なる形式で格納し、且つ、データを多くの異なる方法で処理することができる。これらの格納形式及び処理形式の多くは、相互関係を解析する方法なしでは明白とならない態様において相互に関係する。
<関連出願>
本願は、2008年12月2日出願の米国特許出願第61/119,164号の優先権を主張するものであり、ここに引用して組み込まれる。
概して、コンピュータシステムによって使用される、データストレージシステム(データ格納システム)内に格納されたデータをマッピングする方法は、
ノードを含むデータフローグラフの仕様を処理するステップであって、前記ノードがデータのフローを表現するリンクによって相互接続された計算を表現し、前記データフローグラフの少なくとも一つが少なくとも一つの入力データセットからデータのフローを受取り、且つ、前記データフローグラフの少なくとも一つが少なくとも一つの出力データセットにデータのフローを提供する、ステップ;
データセットの一つ以上のセットを特定するステップであって、所与のセット内の各データセットが単一のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、ステップ;
所与のセットにおける少なくとも二つのデータセットの間のマッピングを受け取るユーザインターフェースを提供するステップ;及び、
データを前記マッピングのデータセットに提供するかまたはデータを前記マッピングのデータセットから受け取る一つのデータフローグラフに関連して前記ユーザインターフェースを通して受け取られた前記マッピングを格納するステップ;
を含む。
他の概要において、データストレージシステム内に格納されたデータをマッピングするシステムは、
ノードを含むデータフローグラフの仕様を格納するデータストレージシステム(データ格納システム)であって、前記ノードがデータのフローを表現するリンクによって相互接続された計算を表現し、前記データフローグラフの少なくとも一つが少なくとも一つの入力データセットからデータのフローを受取り、且つ、前記データフローグラフの少なくとも一つが少なくとも一つの出力データセットにデータのフローを提供する、データストレージシステム;
データフローグラフと関連したデータセットの一つ以上のセットを特定するマッパ(mapper)であって、所与のセット内の各データセットが単一のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、マッパ;及び、
所与のセットにおける少なくとも二つのデータセットの間のマッピングを受け取るユーザインターフェースであって、データを前記マッピングのデータセットに提供するかまたはデータを前記マッピングのデータセットから受け取る一つのデータフローグラフに関連して前記データストレージシステム内の前記マッピングを格納するユーザインターフェース;
を含む。
他の概要において、データストレージシステムに格納されたデータをマッピングするシステムは、
ノードを含むデータフローグラフの仕様を処理する手段であって、前記ノードがデータのフローを表現するリンクによって相互接続された計算を表現し、前記データフローグラフの少なくとも一つが少なくとも一つの入力データセットからデータのフローを受取り、且つ、前記データフローグラフの少なくとも一つが少なくとも一つの出力データセットにデータのフローを提供する、手段;
データセットの一つ以上のセットを特定する手段であって、所与のセット内の各データセットが単一のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、手段;
所与のセットにおける少なくとも二つのデータセットの間のマッピングを受け取るユーザインターフェースを提供する手段;及び、
データを前記マッピングのデータセットに提供するかまたはデータを前記マッピングのデータセットから受け取る一つのデータフローグラフに関連して前記ユーザインターフェースを通して受け取られた前記マッピングを格納する手段;
を含む。
他の概要において、データストレージシステムに格納されたデータをマッピングするためのコンピュータプログラムは、コンピュータ読み出し可能媒体に格納され、且つ、コンピュータに、
ノードを含むデータフローグラフの仕様を処理させる命令であって、前記ノードがデータのフローを表現するリンクによって相互接続された計算を表現し、前記データフローグラフの少なくとも一つが少なくとも一つの入力データセットからデータのフローを受取り、且つ、前記データフローグラフの少なくとも一つが少なくとも一つの出力データセットにデータのフローを提供する、命令;
データセットの一つ以上のセットを特定させる命令であって、所与のセット内の各データセットが単一のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、命令;
所与のセットにおける少なくとも二つのデータセットの間のマッピングを受け取るユーザインターフェースを提供させる命令;及び、
データを前記マッピングのデータセットに提供するかまたはデータを前記マッピングのデータセットから受け取る一つのデータフローグラフに関連して前記ユーザインターフェースを通して受け取られた前記マッピングを格納させる命令;
を含む。
態様は一つ以上の以下の特徴を含むことができる。
前記セットは前記ユーザインターフェース上に提示される。
前記一つ以上の基準への一致の数量化に従って順位付けられた可能性のあるマッピングのリストは、前記ユーザインターフェースを通して提示される。
前記可能性のあるマッピングのリストは、前記リスト内にてより高位に順序付けられた所与のデータセットのインスタンスである可能性がより高い候補を含む。
前記基準の一つは、前記一つ以上のデータセットを特定するマッパに組込まれている。
前記基準の一つは前記ユーザインターフェースから受け取られる。
前記可能性のあるマッピングの少なくとも一つは一つのデータセットを表現するデータフローグラフの構成要素を示し、且つ、前記可能性のあるマッピングの少なくとも一つはデータセットを表現しないデータフローグラフの構成要素を示す。
複数の構成要素を含むデータフローグラフのサブグラフは、ひとつのデータセットを表現する。
前記サブグラフはデータ構成要素を含む。
前記サブグラフは実行可能な構成要素を含む。
前記データセットの一つ以上のセットを特定することは、所与のセット内の一つのデータセットが他のデータセットと共通の一つ以上の特徴を有するか否かを判別するためのヒューリスティックスを使用することを含む。
前記特徴は前記データセットの表現におけるバイト及びレコードの量を含む。
前記特徴は前記データセットの表現の名称を含む。
前記特徴は前記データセットの表現の生成日を含む。
前記特徴は前記データセットの表現のデータフォーマットを含む。
前記マッピングのデータセットの少なくとも一つはデータ管理システムに知られているデータセットのグループに属する。
所与のセットのデータセット間のフォーマットマッピングが提供される。
前記マッピングは、前記データセットを追跡する前記データ管理システムにおけるレコードを指し示す識別子を含む。
データセットの変化に基づいて前記マッピングが更新される。
本発明の態様は以下の一つ以上の利点を有することができる。
バージョンを特定(識別)する基準に従ってデータセットの集合(セット)を特定することによって、一つのデータセットの二つのインスタンスの間の一致が純粋な手作業よりもより効率的になされ得る。さらに、少なくとも二つのデータセット間のマッピングを受取るユーザインターフェースを提供することにより、そのマッピングは、システムが純粋に自動化された場合よりもより正確になる。
本発明の他の特徴及び利点は以下の説明及び特許請求の範囲の請求項から明らかになる。
データフローグラフである。 データセットのマッパ及び関連する構成要素の概観図である。 データセットのマッパによって取扱われるシナリオの線図である。 データセットマッパによって取扱われる異なるシナリオの線図である。 データセットマッパによって取扱われる異なるシナリオの線図である。 データセットマッパによって取扱われる異なるシナリオの線図である。 データセットマッパによって取扱われる異なるシナリオの線図である。 データセットのマッパの動作フローチャートである。 データセットリンケージマッピングである。 データセットフォーマットマッピングである。
概観
データ処理要素はグラフの形式とすることができる。グラフに基づく計算は、構成要素(格納されたデータに対応するデータストレージ構成要素、または、実行可能な処理に対応する計算の構成要素の何れか)を表現するグラフにおける頂点(vertices)を有する有向グラフにより表現される「データフローグラフ」であってそのグラフにおける有向リンクまたは「辺(edges)」が構成要素間のデータのフロー(流れ)を表現する「データフローグラフ」を用いて実行される。データフローグラフ(これは、また、単に「グラフ」と呼ばれる。)はモジュールの統一体(modular
entity)である。各グラフは、一つ以上の他の複数のグラフから構成されることができ、また、特定のグラフはより大きなグラフにおける一つの構成要素であることができる。グラフ開発環境(GDE)は、実行可能なグラフを特定するとともにそのグラフの構成要素のパラメータを定義するユーザインターフェースを提供する。
図1を参照すると、データフローグラフ101の一例は、データフローグラフ101の実行可能構成要素104a−104jによって処理されるべきデータの集まりを提供する入力構成要素102を含む。たとえば、データセット102は、データベースシステムに関連するデータレコードあるいはトランザクション処理システムに関連するトランザクションを含むことができる。実行可能な構成要素の各々は、全体のデータフローグラフ101によって規定される計算の一部に関連している。作業要素(たとえばデータの集まりからの個別的なデータレコード)は一つの構成要素の一つ以上の入力ポートに入り、また、出力作業要素(幾つかの場合には、入力作業要素または入力作業要素の処理されたバージョン)は一般にその構成要素の一つ以上の出力ポートから出る。グラフ101において、構成要素104e、104g及び104jからの出力作業要素は、出力データ構成要素102a−102c内に格納される。
データセットは、特定のデータの集まりを表わす(たとえばオブジェクト指向データベース内に格納された)オブジェクトである。データフローグラフのシステムのコンテクストにおいて、一つの構成要素は一つのデータセットを表わすことができる。このような場合、グラフはデータセットを表現する構成要素(即ち、単に「データセット構成要素」)と一つ以上の方法で相互に作用することができる。一つのデータセット構成要素は、所与のデータセットによって表現された物理的データをアクセスするための命令を含み、従って、一つのグラフはデータセットからの入力をデータセット構成要素を用いて受け取り、出力をデータセットにデータセット構成要素を用いて提供し、且つ、中間ステップにてデータセットのデータをデータセット構成要素を用いて処理することができる。データセット構成要素は、データセットオブジェクトの一つのインスタンスを含む所与のデータセットオブジェクトに関連する種々の情報を含むことができる。このようなシステムは、数十、数百、あるいは数千のグラフ及びこれに関連するデータセット構成要素を有することになる。このようなシステムの複雑度が増大するにつれて、種々のグラフとデータセット構成要素との間の関係を管理することは益々困難となる。システムにおける二つ以上のデータセット構成要素は同一のデータソースを表現することができ、また、そのようなデータセット構成要素は、各々、別のグラフ、グラフサブセットまたは実行可能な構成要素に関連付けることができる。
たとえば、一つの可能なシナリオにおいては、単一のデータセットはデータ管理システムに関連した二つ以上の場所に格納され得る。このシナリオにおいては、二つ以上のデータソースが、同一データの類似バージョンまたは同一バージョンを含む。このシステムにおける二つのグラフはこの単一のデータセットを取り扱うことになるが、各グラフは、別のデータベーステーブルまたは他の形式のデータセット構成要素を、別のデータファイルから読み取り且つ別のデータファイルへと書き込む。
類似したシナリオにおいて、所与のデータセットによって表現されたデータ(たとえばデータファイル)は二つ以上の場所に格納されるだけでなく、異なるデータストレージフォーマットを用いて解釈され得る。上述の例と同様、二つのグラフは、(フォーマットのみ異なる)同一のデータを含む二つの別のデータファイルに作用することができる。各データファイルは、同一のデータのインスタンスを含んでいるにもかかわらず、異なるデータ形式の構成(配列、arrangement)を有することがある。
別のシナリオにおいては、一つのグラフはデータセットのインスタンスを含む一つのデータファイルに作用し、また、他のグラフはそのデータセットのインスタンスを含むデータベーステーブルに作用する。このような場合、データファイル及びデータベーステーブルは一般に二つの異なるデータフォーマットを有するであろう。
他のシナリオにおいては、データ管理システムは同一のデータセットの異なるバージョンを各々異なる方法でアクセスできる。一つのグラフは、たとえばデータファイルを標準ファイル入出力メカニズムを用いて読み込むことによってデータセットのインスタンスを直接的にアクセスできる。他のグラフは、ネットワークを介して利用可能なデータ収納庫(repository)のような外部ソースに問い合わせることによってファイルを取得(retrieve)できる。また、あるグラフは、類似した外部問い合わせ(たとえばネットワークされたデータベースに対する問い合わせ)によってデータベーステーブルをアクセスできる。
また、データ管理システムは、同一データセットの異なるインスタンスを各々異なる方法で参照することができる。たとえば一つのグラフはパラメータに従って異なるデータ場所をアクセスできる。このようなパラメータは時間と共に多くのデータ場所を指し示すことができる。そのパラメータがグラフの実行間で変化すれば、複数回動作するグラフは異なる機会に異なる場所をアクセスできる。
あるシナリオにおいては、一つのグラフ内における一つのデータセットの表現は、単一構成要素ではなく、むしろ構成要素の集まり、たとえば、それ自体が複数の構成要素を有する一つのグラフとして実行されるグラフ内の「サブグラフ」である。この集まりは、一つ以上のデータセットを含むことができ、且つ、一つ以上の実行可能な構成要素を有することができる。
上述のシナリオのすべては、データ管理システムによって取り扱われるデータを視覚化し且つ解析することに対する問題を潜在的に提示する。ユーザが所与の一つのデータセットと相互に作用する構成要素の統合されたビューを必要とするとき、存在し得るデータセットの異なるインスタンスを調整(reconcile)するために種々のアプローチが用いられ得る。
一つのアプローチは、同一のデータセットの複数のインスタンスを特定し且つそれらの間にリンケージ(つながり、linkage)を生成する自動的なメカニズムである。しかしながら、幾つかの自動的なメカニズムは欠点、つまり以下に示す3つの欠点を有する。第1に、このメカニズムは、一つのデータセットの各インスタンスが特定な方法で格納されること、たとえば統一名称方式(unified
naming scheme)及びディレクトリ構造の下で格納されることを必要とする。これは、データ管理システムに関連するストレージシステム内において各々を特定し且つ場所を突きとめる方法をそのメカニズムに提供する。しかしながら、この構成はデータ管理システムの柔軟性を限定すると共に、このシステムの幾つかの使用方法について過度に制限することになり得る。
第2に、動作についての幾つかのシナリオにおいて、そのメカニズムは同一のデータセットのインスタンスを正しく特定せず、また、正しいリンケージを形成しない場合がある。たとえば、このことは、データセットを外部参照エンティティを用いてアクセスし、且つ、その自動的なメカニズムがそのエンティティに対するアクセスを有しない場合に発生する可能性が高い。同様に、このことは、構成要素がデータセットをパラメータリストにおける独立パラメータに従ってアクセスし、且つ、この自動的なメカニズムがそのパラメータリストをアクセスする方法または解釈する方法を有しない場合に発生する可能性が高い。さらに、このことは、一つのデータセットが、一つ以上のデータセット構成要素及び実行可能な構成要素(たとえばサブグラフ)から構成される複雑なエンティティによって表現されているときに発生する可能性が高い。自動的なメカニズムが、構成要素のどの特定な組み合わせが特定のデータセットを表現するかを識別できない場合もある。
第3に、そのメカニズムは、データセットのインスタンスの間に冗長または不要のリンケージを形成する場合がある。たとえば、データ管理システムによって取り扱われるデータセットのいくつかは、たとえばエラーログのような外部からのデータを表現する場合がある。これらのデータセットの間のいかなるリンケージも不要である。さらに、データ管理システムによって取り扱われるデータセットのインスタンスのいくつかは、冗長な(重複する)インスタンス(たとえばキャッシュされたデータまたはデータの他の一時的なコピー)である場合がある。この形式のデータに接続するリンケージは直ちに陳腐化し、且つ、データ管理システムを分析するユーザを当惑させるであろう。
代替のアプローチは、ユーザが同一データセットのインスタンスをユーザインターフェースを介して手動で統合するシステムである。ユーザが一つのデータセットの複数のインスタンスの間の本質的なリンケージを見逃す可能性は低く、且つ、ユーザが一つのデータセットの複数のインスタンスの間の冗長または不要なリンケージを生成する可能性も低い。しかしながら、データ管理システムが数百・数千の構成要素を有する場合、ユーザが手動で必要なリンケージを生成するために必要な時間はとてつもなく長い。
部分的に自動化されたアプローチにおいては、データセットマッパ(dataset
mapper)が使用されることにより、幾つかの自動的な分析を提供され、且つ、大きな及び/または複雑なシステムのユーザにとって手が出せないことがない方法でそのユーザとの所定の交流を可能とする。
図2は、例示的なデータセットマッパ100の一実施形態のブロック線図であって、関連する主要な要素間の相互関係を示す。データセットマッパ100は、一つ以上のグラフ180、180a、180b、180cのセットを解析することができる。各グラフは、一つ以上のデータセット構成要素182、182a、182bに関連し、各データセット構成要素は、データファイル、データベーステーブル、サブグラフまたはデータセットを表現する他の種類の構成要素に対応する可能性がある。マッパ100は、同一のデータセット186のインスタンスを含むデータセットの構成要素間のリンケージを形成する目的でグラフを解析する。マッパ100は、組込み規則110、ユーザ定義規則120及びヒューリスティックス(経験則、heuristics)130の組合せに従って各データセット構成要素を処理してデータセット構成要素182がデータ管理システム170に知られたデータソース176、176a、176bを表現する幾つかのデータセットの一つのインスタンスを含むか否かを判別する。マッパ100はこの情報をユーザインターフェース160に渡し、インターフェース160はデータセット構成要素182に対応する正しいデータセットがあればこの正しいデータセットをユーザ162に選択させることを許容する。たとえば、ユーザインターフェース160は、単一のデータセットの異なるバージョンまたはインスタンスを特定する一つ以上の基準への合致に基づいて可能性のある候補のマッピングのリストを提示する。組込み規則、ユーザ定義規則及びヒューリスティックスに基づく基準を含むそのような基準の例について以下に詳述する。候補マッピングのリストは一つ以上の基準への合致の数量化に従って順位付け(order)できる(たとえば、所与のデータセットのインスタンスである可能性がより大きい候補はリストにおいてより高位に順序付けられる)。次に、マッパ100は、データセット構成要素182がデータソース176を表現するデータセットのインスタンスを含むことを示すデータセットリンケージマッピング140を発生する。
さらに、データセット構成要素182は、対応する連結されたデータソース176のフォーマット174とは異なるデータフォーマット184を有することができる。データ管理システム170の要求に依り、ユーザはデータセットのすべてのインスタンスに対して単一のデータフォーマットを確立することを選択することができる。このシステムは各データソース176、176a、176bに対してフォーマット174、174a、174bを格納する。代替として、ユーザは、データセット構成要素182のフォーマット184と、対応するデータソース176の確立されたフォーマット174と、の間に随意(optional)のマッピング142を生成することを選択することができる。その随意のマッピング142は、データ管理システム170がデータセットの各インスタンスに対するデータの形式についての情報を保持することを許容する。
また、マッパ100は、ユーザが、実行可能な構成要素と、他のリンケージは有しないであろう単一のデータセット構成要素と、の間のリンケージを示すことを可能とする。たとえば、データセット構成要素は、単一の読取者を伴うソースデータセット、または、単一の書込者を伴う目標データセットに対応することができる。データセットオブジェクトが、システムに存在し、且つ、正しいレコードフォーマット、文書、データプロフィール等の他の関連するメタデータを有すれば、リンケージはデータセット構成要素を正しいデータセットにマップさせることができる。
マッピング処理
マッパ100は、複雑なデータ管理システムに生ずる共通のシナリオを取扱うことができる。第1のシナリオにおいては、図3Aに示したように、一つのグラフ210は出力としてデータセット構成要素212を提供し、他のグラフ220は入力として異なるデータセット構成要素222を受取る。各データセット構成要素は、同一のデータセット216のインスタンスを含む。このデータセットは、データ管理システムに知られたデータソース176を表現するデータセットと同じであり得る。さらに、第1のデータセット構成要素212は第2のデータセット構成要素222に属するフォーマットと同じデータフォーマット214を有し、あるいは、代替として、第2のデータセット構成要素は異なるフォーマット224を有してもよい。マッパ100は、第2のデータセット構成要素222を第1のデータセット構成要素212によって表現されたデータセット216のインスタンスであるとして特定し、適切なリンケージマッピング140を生成することができる。
第2のシナリオにおいては、図3Bに示したように、グラフ230は、外部ソース239に対する外部参照238を用いて外部データセット構成要素232に関連付けられる。その外部データセット構成要素232は、データフォーマット234を有し、且つ、データセット236のインスタンスである。第1のシナリオと同様、外部データセット構成要素によって表されたデータセット236は、データ管理システム170に知られたデータソース176を表現するデータセットであり得る。マッパ100は、この外部データセット構成要素232を他のデータセットのインスタンスであるとして特定し、適切なリンケージマッピング140を生成することができる。
第3のシナリオにおいては、図3Cに示したように、グラフ240は、パラメータリスト247内のパラメータ248を用いてデータセット構成要素242に関連付けられる。参照されるデータセット構成要素242は、データフォーマット244を有し、且つ、データセット246のインスタンスである。第1、第2のシナリオと同様、参照されるデータセット構成要素によって表されたデータセット246は、データ管理システム170に知られたデータソース176を表現するデータセットであり得る。マッパ100は、この参照されるデータセット構成要素242を他のデータセットのインスタンスであるとして特定し、適切なリンケージマッピング140を生成することができる。
第4のシナリオにおいては、図3Dに示したように、グラフ250は外部ソース259に対する外部参照258を用いて外部構成要素251に関連付けられる。外部構成要素251は、データセット構成要素ではなく、むしろ実行可能な構成要素のような他の種類の構成要素である。マッパ100は、この外部構成要素251を、データセットリンケージマッピング処理に適用できないものとして特定することができる。
第5のシナリオにおいては、図3Eに示したように、グラフ260は、それ自体複数の構成要素から構成されるサブグラフ構成要素263に関連している。これらの構成要素は、少なくとも一つのデータセット構成要素262を含み、且つ、この例では一つ以上の実行可能な構成要素261a、261b、261cを含む。このシナリオにおいては、単一エンティティとしてのサブグラフ263は、少なくとも一つのデータセットを表現する。他のサブグラフの例は複数のデータセット構成要素及びゼロを含む多数の実行可能な構成要素を含むことができる。さらに、サブグラフ263は複数の出力265a、265bを有する。各出力は、データセットの異なるインスタンスを、その出力を受け取る構成要素に提供することができる。また、サブグラフの他の例は、多数の入力を有することもできる。さらに別のサブグラフの例は、それぞれのデータセットに対応する入力または出力を有しない場合もある。サブグラフが少なくとも一つのデータセットを表現している場合には、マッパ100は、サブグラフ263を少なくとも一つのデータセットのインスタンスであるとして特定し、少なくとも一つの適切なリンケージマッピング140を生成することができる。
マッパの動作シーケンスの例を図4に示す。ステップ302において、マッパは第1に一つのグラフに関連付けられた要素のうちのどの要素がデータセットを表現するかを特定する。一般に、グラフは一つ以上の入力及び出力を有し、また、各入力及び各出力はデータセットのインスタンスであろう。また、各グラフは、ある中間ステップにおいて、データセットのインスタンスを取扱うことができる。この結果、各グラフは、データセットの候補となり得る複数の構成要素に接続され得る。幾つかの場合には、データ管理システムは、ある構成要素がデータセットを表現するか否かについての情報を含む「構成要素の特性」についての情報を有する。このような場合、ステップ304において、マッパは可能性のあるデータセット構成要素をデータセットの候補テーブルに加える。幾つかの場合、構成要素は、データセット構成要素及び実行可能な構成要素を含む複数の構成要素から構成されたサブグラフであり得る。サブグラフは一つのデータセットの少なくとも一つのインスタンスを表現することができるであろう。従って、マッパは、そのようなサブグラフの総てのリストを編集(コンパイル)し、ステップ304の一部としてそれらをデータセットの候補テーブルに加える。他の幾つかの場合において、構成要素の特質(nature)がデータ管理システムに利用され得ないものであることがある。その構成要素は、外部エンティティへの参照を介してアクセスされ得る。ここで、その外部エンティティへの参照とは、データベーステーブル、インタネットサーバを指し示すユニフォームリソースロケイタ、パラメータリスト内のパラメータ、または、他の形式の参照に対する問合せ(クエリー)である。これらの場合、一般に、マッパは、その(外部エンティティへの)参照によって指し示されたエンティティを独立にアクセスするための手段を有しない。従って、マッパは、そのような参照の総てのリストを編集(コンパイル)し、ステップ304の一部としてそれらをデータセット候補テーブルに加える。
次に、ステップ306において、所与のデータセットの候補に対し、マッパは、データセットの候補がマップする可能性のある既知のデータセットのリストを発生する。マッパは、ユーザ定義規則、組込み規則及びヒューリスティックスの組合せを用いて、既知のデータセットの何れがデータセットに候補にマップされるかを評価する。
次に、ステップ308において、ユーザは、そのデータセットの候補に対応する既知のデータセットを選択する。また、ユーザは、提案された既知のデータセットの何れもが正しい合致でない場合、すべての既知のデータセットのリスト全体をアクセスするかもしれない。加えて、ユーザは、データセットの候補がデータセットでないことを示すことができる。たとえば、遠隔サーバへの参照は、遠隔実行可能手続(データエンティティでない)への要求であろう。他の例として、データセットの候補はデータを表現できるが、そのデータは、エラーログのようなデータ管理システムに関係しない種類のデータである場合がある。この場合、ユーザは、ユーザインターフェースに対してこのデータはマッピング処理において無視すべきであることを指示することができる。
次に、ステップ310において、ユーザは新しくマップされたデータセットのデータフォーマットを特定する。システムは、データフォーマットテンプレートの集合を有し、その一つが選択され得る。代替として、ユーザはユーザインターフェース内に新しいデータフォーマットを生成することができる。
次に、ステップ312において、マッパは、この情報を用いてデータセットの候補に対するリンケージマッピング、及び、随意に、フォーマットマッピングを発生する。
次に、マッパがすべてのデータセットの候補を処理していなければ、マッパは、ステップ308、310及び312の繰り返しにおけるリンケージ発生のために、次のデータセットの候補をユーザに提供する。
次に、ステップ314において、ユーザはデータ管理システムに関連した構成要素を見て、グラフとデータセット構成要素との間の関連の視覚化が正確であることを構成要素間の新しいリンケージに基づいて保証する。ステップ316において、ユーザはリンケージ及びフォーマットマッピングに対して調整するオプションを有する。
最後に、ステップ318において、マッパは、リンケージ及びフォーマットマッピングをデータ管理システムに引き渡す。そのマッピングは、一つ以上のグラフと一緒に格納され、またはデータ管理システムに関連する別のストレージエンティティ内に格納され、もしくは、他の手段によって格納されることができる。
データセットマッピングのメンテナンス
マッパ100は、データセットリンケージの完全性(インテグリティ、integrity)に影響する複数のシナリオを取り扱うことができる。
第1のシナリオは、新構成要素がデータ管理システム170に追加されたときに新しいデータセットの候補を特定することを含む。このシナリオの下では、マッパ100は各構成要素を分析し且つ可能性のあるリンケージをユーザに提示する。マッパ100は、どのような新しい構成要素にも作用して適切なリンケージを必要に応じて発生する。
第2のシナリオは、データ管理システム170が時間と共に変化したときに、現存のリンケージをメンテナンスすることを含む。たとえば、データ管理システムが関連するグラフの通常の動作中にデータセットの新インスタンスが出現することがある。他の一つの例として、データセットがそのアイデンティティ、たとえばデータ管理システムにおけるその名称及び場所、を変更する場合がある。さらなる例として、データセット全体が削除されている場合もある。さらなる一つの例として、データセット候補は、リンケージ生成の先の回において見落とされていたかも知れず、その結果、リンケージの集まりが不完全な場合がある。マッピングシステムのユーザインターフェース160は、ユーザ162に、現存のリンケージを修正させて不完全または期限切れのマッピングを修復させることを許容する。
第3のシナリオは、既知のパターンに判で押したように従うデータセットの参照のリンケージを自動的に更新することを含む。たとえば、グラフは、パラメータリスト247において参照されるデータセットを取り扱うことができる。このようなパラメータリストは時間と共に変化する。パラメータリストがデータ管理システムに知られた標準フォーマットに従うのであれば、マッパはパラメータリスト内の変化を特定し且つ現存のリンケージをそれに応じて更新することができる。
データセットリンケージのマッピング
図5に示したように、データセットリンケージマッピング140は、構成要素名402、データセット名404、データセット形式406、フォーマット408、マスタデータセット場所410及びフラグ412を含む。構成要素名402はデータセット構成要素またはそのデータセットのインスタンスを表現するサブグラフである。データセット名404はこの構成要素によって表現されたデータセットを指し示す識別子である。データセット形式406は、データファイル、データベーステーブルまたは他の形式等のこのデータセットのインスタンスが分類されるカテゴリを示す。フォーマット408は、このデータセットのインスタンスがそのデータを表現するのに用いるフォーマットまたは配列である。マスタデータセット場所410は、このデータセットを追跡するデータ管理システム内のレコードを指し示す識別子である。最後に、フラグ412は、たとえばユーザがこのデータセットのインスタンスをデータ管理システムに適用できないものとして特定し、このインスタンスはリンケージの集合から排除されるべきであると特定した場合に、このデータセットのインスタンスは無視されるべきか否かを示す。
組込み規則
マッパ100は、データ管理システムの標準的な慣例(standard
conventions)に従って動作する組込み規則100の集合を有する。データセット構成要素が組込み規則110に従う場合、マッパはデータセット構成要素に対応するデータセットを最高位精度で特定することができる。規則の一つの実施態様において、データセットの候補を含む外部参照データベーステーブルは、データ管理システムによって用いられる標準化されたディレクトリ構造下で永続記憶装置内に配置されなければならない。さらに、パラメータに従って外部参照データセット構成要素をアクセスするグラフは、データ管理システムがまたアクセスし且つ分解できるパラメータを用いなければならない。さらに、データセット構成要素のフォーマットは、永続記憶装置に内にて利用可能であり、且つ、データ管理システムによってアクセスできるものでなければならない。データ管理システムに依り、他の組込み規則でもよい。
ユーザ定義規則
データセットの候補を特定するためにマッパが使用する組込み規則に加えて、マッパ100は、随意のユーザ定義規則120の集まりを有する。これらのユーザ定義規則120は、どれがユーザの特定のデータ管理システムに適用可能であるかに応じて、ユーザによって使用可能または使用不能に設定され得る。一実施態様において、マッパは六個の選択が自由なユーザ定義規則を有する。データベーステーブルという名目の一部の情報(たとえば、そのテーブルを定義したユーザについての情報等)がテーブルのアイデンティティを不明瞭にする場合、マッパはデータベーステーブルという名目の一部の情報を無視することができる。さらに、マッパは、データベーステーブルの名称からこの情報を除去することができる。さらに、マッパは、データ管理システムに関連するデータセットに関係のないデータを含むことが知られている特定のカテゴリのデータファイルを、無視することができる。そのようなカテゴリは、データファイル形式またはデータファイルエクステンションであろう。さらに、マッパは、参照をパラメータリスト内の特定のパラメータへと変換し、且つ、この参照をパラメータ自身の名称に置換できる。さらに、マッパは、パラメータに対する参照を完全に除去することができる。ユーザは、また、マッパが従う他の規則を生成することもできる。
ヒューリスティックス
データセット候補を評価するための組込み規則及びユーザ定義規則に続いて、さらにマッパ100はヒューリスティックス130の集合を用いる。ヒューリスティックス130は、マッパに、所与のデータセット構成要素の特徴を解析させることを許容し、これらの特徴を既知のデータセットと比較させる。既知のデータセットに類似した特徴を有するデータセット構成要素はそのデータセットの一つのインスタンスである可能性が高い。一つの実施態様においては、マッパは二つのヒューリスティックスを用いる。一つのヒューリスティックスは所与のデータセット構成要素のデータの特徴である。たとえば、データセット構成要素に関連するデータが、既知のデータセットに関連するデータと同一量のバイト及びレコードを有するときには、そのデータセット構成要素はそのデータセットのインスタンスの可能性が高い。さらに、データセット構成要素が、既知のデータセットと類似の名前または日付のクリエーションを有するならば、そのデータセット構成要素はそのデータセットのインスタンスである可能性が高い。第2のヒューリスティックスはデータセット構成要素のデータフォーマットである。データセット構成要素が既知のデータセットとデータフォーマットを共有していれば、そのデータセット構成要素はそのデータセットのインスタンスの可能性が高い。このヒューリスティックスは、複数の別個のデータセットが同一のデータフォーマットを用いている状況では、信頼性が低い。
データセットのフォーマット及びマッピング
データソースを表現する各データセットは、データセットの各要素に対して、その要素がどのデータ形式を表しているかを示す関連データフォーマットを有する。たとえば、データベーステーブルのデータフォーマットは、所与のレコード内の各フィールドのデータ形式を示す。データ管理システム170は、データソース176、176a、176bを表現する各データセットに対する単一のデータフォーマット174、174a、174bを保持する。
マッパ100が新たなデータセット186を表現するデータセット構成要素182に遭遇した場合、マッパ100は、データセット構成要素182のデータフォーマット184に基づいてデータ管理システムによって格納されるべき対応するデータフォーマットを生成する。
データセット構成要素182がデータソース176を表現する既知のデータセットを表している幾つかの場合には、データセット構成要素182は、データソース176を表現する既知のデータセットのデータフォーマット174とは異なるデータフォーマット184を有する。データ管理システム170は、データソース176を表すデータセットを、存在するかもしれないデータセットのインスタンスの数とは関係なく、単一のエンティティとして取扱う。その結果、このような状況が発生したときには、データ管理システム170はマッパ100を頼りにして異なるフォーマット174、184を統合させる。一実施態様においては、マッパは、ユーザ及びデータ管理システムの要求に依存して四つの異なる方法のうちの一つの方法にて各状況に対処することができる。ユーザ162は、各状況に対する統合のための四つの方法のうちのどれでも一つを選択することができる。
統合のための第1の方法の下では、マッパ100は、データセット構成要素182のデータフォーマット184を、そのデータセットのマスタデータフォーマットとして用い、それに応じてデータ管理システム170を更新する。
統合のための第2の方法の下では、マッパ100は、現存のデータセットのデータフォーマット174を、そのデータセットのマスタデータフォーマットとして用い、それに応じてデータ管理システム170を更新する。
統合のための第3の方法の下では、マッパ100は、両方のデータフォーマットを保持し、各データフォーマットのフィールド間のマッピング142を発生する。図6に示したように、データフォーマットマッピング142は、データセットフォーマット510のフィールド512a、512b、512cのどれがデータセットインスタンス(たとえば、データセットの構成要素)のフォーマットのフィールド522a、522b、522cのどれに対応するかを示す。
統合のための第4の方法の下では、マッパは、いずれか一方のデータフォーマットとして作用できる新しい結合データフォーマットを発生する。
一般的なコンピュータの実施形態
上述したデータセットマッピングのアプローチは、コンピュータ上で実行されるソフトウェアを用いて実現できる。たとえば、そのソフトウェアは、一つ以上のプログラムされたまたはプログラム可能なコンピュータシステム(分散型、クライアント/サーバ型、または、グリッド型等の種々アーキテクチャ型である)上で実行される一つ以上のコンピュータプログラムにおける手続を形成する。その各コンピュータシステムは、少なくとも一つのプロセッサ、少なくとも一つの記憶システム(揮発性メモリ、及び不揮発性メモリ、及びまたは記憶素子を含む。)、少なくとも一つの入力装置またはポート、及び、少なくとも一つの出力装置またはポートを含む。そのソフトウェアは、たとえば、データフローグラフの設計及び構成に関係した他のサービスを提供するより大きなプログラムの1つ以上のモジュールを形成できる。グラフのノード及び要素は、コンピュータ読出し可能媒体に格納されたデータ構造、または、データ貯蔵庫(保管所)に格納されたデータモデルに合致する他の系統的なデータとして実現され得る。
そのソフトウェアは、汎用または専用のプログラマブルコンピュータによって読み出し可能なCD−ROM等の記憶媒体上に提供され、或いは、そのソフトウェアが実行されるコンピュータにネットワークの通信媒体を用いて(伝播信号に符号化されて)配信される。すべての機能は、専用のコンピュータ上で、または、コプロセッサのような専用ハードウェアを用いて実行され得る。ソフトウェアは、ソフトウェアによって特定される異なる計算の部分が異なるコンピュータによって実行されるという分散方式によって実行され得る。好ましくは、上述の各コンピュータプログラムは、汎用または専用プログラマブルコンピュータによって読み出し可能な記憶媒体またはデバイス(たとえば、固体メモリまたは媒体、もしくは磁気的または光学的媒体)に格納され或いはダウンロードされ、記憶媒体またはデバイスがコンピュータシステムによって読み出されて上述した手順を実行するときに、コンピュータを構築及び動作させる。また、本発明のシステムは、コンピュータプログラムとともに構築されたコンピュータ読み出し可能記憶媒体として実現されることが考えられる。ここで、そのように構築された記憶媒体は、上述の機能を実行するために特別且つ予め定義された様式でコンピュータシステムを作動させる。
多くの本発明の実施例を記載した。しかしながら、本発明の精神及び範囲から逸脱することなく多種の変更がなされ得ることが理解されよう。たとえば上述のいくつかのステップは、順序が独立であり、従って上述の順序と異なる順序で実行され得る。
上述の記述は説明のためであり、添付された本発明の特許請求の範囲によって定義される発明の範囲を限定する意図はないことが理解されるべきである。たとえば、上述の機能ステップの多くは、全体の処理に実質的に影響を及ぼすことなく異なる順序で実行され得る。他の実施例は特許請求の範囲の請求項の範囲内にある。

Claims (98)

  1. 少なくとも一つの入力データセットからデータ受取り、且つ、少なくとも一つの出力データセットにデータを出力するデータ処理プログラムの仕様を処理するステップと、
    第1のデータセット候補を特定するステップであって、前記第1のデータセット候補は前記データ処理プログラムのうちの第1のデータ処理プログラムに表現され、前記第1のデータセット候補は第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、ステップと、
    第2のデータセット候補を特定するステップであって、前記第2のデータセット候補は前記データ処理プログラムのうちの第2のデータ処理プログラムに表現され、前記第2のデータセット候補は前記第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、ステップと、
    前記第1のデータセット候補と前記第2のデータセット候補との間のマッピングを受け取るユーザインターフェースを提供するステップであって、前記マッピングは、前記第1のデータセット候補と前記第2のデータセット候補の双方が同じデータセットを表現することを示す、ステップと、
    前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補に対してデータを提供する、または、前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補からデータを受け取るデータ処理プログラムに関連して前記ユーザインターフェースを通して受け取られた前記マッピングを格納するステップと、
    を含む方法。
  2. 前記セットを前記ユーザインターフェースを通して提示することを含む請求項1に記載の方法。
  3. 前記一つ以上の基準への一致の数量化に従って順位付けられた、可能性のあるマッピングのリストを前記ユーザインターフェースを通して提示することを含む請求項1に記載の方法。
  4. 前記可能性のあるマッピングのリストは、前記リスト内にてより高位に順序付けられた所与のデータセットのバージョンである可能性がより高い候補を含む請求項3に記載の方法。
  5. 前記基準の一つが前記第1のデータセット候補及び前記第2のデータセット候補を特定するマッパに組込まれている請求項3に記載の方法。
  6. 前記基準の一つは前記ユーザインターフェースから受け取られる請求項3に記載の方法。
  7. 前記可能性のあるマッピングの少なくとも一つは前記データセット候補の一つを表現するデータフローグラフの構成要素を示し、且つ、前記可能性のあるマッピングの少なくとも一つは前記データセット候補の一つを表現しないデータフローグラフの構成要素を示す、請求項3に記載の方法。
  8. 複数の構成要素を含むデータフローグラフのサブグラフは前記データセット候補の一つを表現する請求項に記載の方法。
  9. 前記サブグラフはデータ構成要素を含む請求項8に記載の方法。
  10. 前記サブグラフは実行可能な構成要素を含む請求項8に記載の方法。
  11. 前記第1のデータセット候補及び前記第2のデータセット候補を特定することは、前記第1のデータセット候補が前記第2のデータセット候補と共通の一つ以上の特徴を有するか否かを判別するためのヒューリスティックスを使用することを含む請求項1に記載の方法。
  12. 前記特徴は前記データセット候補の一つの表現におけるバイト及びレコードの量を含む請求項11に記載の方法。
  13. 前記特徴は前記データセット候補の一つの表現の名称を含む請求項11に記載の方法。
  14. 前記特徴は前記データセット候補の一つの表現の生成日を含む請求項11に記載の方法。
  15. 前記特徴は前記データセット候補の一つの表現のデータフォーマットを含む請求項11に記載の方法。
  16. 前記マッピングの前記第1のデータセット候補及び前記第2のデータセット候補の少なくとも一つはデータ管理システムに知られているデータセットのグループに属する請求項1に記載の方法。
  17. さらに、前記第1のデータセット候補及び前記第2のデータセット候補の間のフォーマットマッピングを提供することを含む請求項1に記載の方法。
  18. 前記マッピングは、前記第1のデータセット候補及び前記第2のデータセット候補を追跡する前記データ管理システムにおけるレコードを指し示す識別子を含む請求項1に記載の方法。
  19. さらに、前記第1のデータセット候補及び前記第2のデータセット候補の一方又は双方の変化に基づいて前記マッピングを更新することを含む請求項1に記載の方法。
  20. データストレージシステム内に格納されたデータをマッピングするシステムであって、
    命令を格納するメモリと、
    前記格納された命令を実行するプロセッサと、
    なくとも一つの入力データセットからデータ受取り、且つ、なくとも一つの出力データセットにデータを出力するデータ処理プログラムの仕様を格納するデータストレージシステムと、
    第1のデータセット候補を特定し、前記第1のデータセット候補は前記データ処理プログラムのうちの第1のデータ処理プログラムに表現され、前記第1のデータセット候補は第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、マッパであって
    第2のデータセット候補を特定し、前記第2のデータセット候補は前記データ処理プログラムのうちの第2のデータ処理プログラムに表現され、前記第2のデータセット候補は前記第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、マッパと、
    前記第1のデータセット候補と前記第2のデータセット候補との間のマッピングを受け取るユーザインターフェースであって、前記マッピングは、前記第1のデータセット候補と前記第2のデータセット候補の双方が同じデータセットを表現することを示し、前記ユーザインターフェースは、前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補に対してデータを提供する、または、前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補からデータを受け取るデータ処理プログラムに関連して前記データストレージシステム内の前記マッピングを格納するユーザインターフェース
    を含むシステム。
  21. 前記ユーザインターフェースが前記セットを提示する請求項20に記載のシステム。
  22. 前記ユーザインターフェースが、前記一つ以上の基準への一致の数量化に従って順位付けられた、可能性のあるマッピングのリストを提示する請求項20に記載のシステム。
  23. 前記可能性のあるマッピングのリストは、前記リスト内にてより高位に順序付けられた所与のデータセットのバージョンである可能性がより高い候補を含む請求項22に記載のシステム。
  24. 前記基準の一つが前記マッパに組み込まれている請求項22に記載のシステム。
  25. 前記基準の一つは前記ユーザインターフェースによって受け取られる請求項22に記載のシステム。
  26. 前記可能性のあるマッピングの少なくとも一つは前記データセット候補の一つを表現するデータフローグラフの構成要素を示し、且つ、前記可能性のあるマッピングの少なくとも一つは前記データセット候補の一つを表現しないデータフローグラフの構成要素を示す、請求項22に記載のシステム。
  27. 複数の構成要素を含むデータフローグラフのサブグラフは前記データセット候補の一つを表現する請求項26に記載のシステム。
  28. 前記サブグラフはデータ構成要素を含む請求項27に記載のシステム。
  29. 前記サブグラフは実行可能な構成要素を含む請求項27に記載のシステム。
  30. 前記マッパは、前記第1のデータセット候補が前記第2のデータセット候補と共通の一つ以上の特徴を有するか否かを判別するためのヒューリスティックスを使用する請求項20に記載のシステム。
  31. 前記特徴は前記データセット候補の一つの表現におけるバイト及びレコードの量を含む請求項30に記載のシステム。
  32. 前記特徴は前記データセット候補の一つの表現の名称を含む請求項30に記載のシステム。
  33. 前記特徴は前記データセット候補の一つの表現の生成日を含む請求項30に記載のシステム。
  34. 前記特徴は前記データセット候補の一つの表現のデータフォーマットを含む請求項30に記載のシステム。
  35. 前記マッピングの前記第1のデータセット候補及び前記第2のデータセット候補の少なくとも一つはデータ管理システムに知られているデータセットのグループに属する請求項20に記載のシステム。
  36. 前記マッパは、前記第1のデータセット候補と前記第2のデータセット候補との間のフォーマットマッピングを発生する請求項20に記載のシステム。
  37. 前記マッピングは、前記前記第1のデータセット候補及び前記第2のデータセット候補を追跡する前記データ管理システムにおけるレコードを指し示す識別子を含む請求項20に記載のシステム。
  38. 前記マッパは前記第1のデータセット候補及び前記第2のデータセット候補の一方又は双方の変化に基づいて前記マッピングを更新する請求項20に記載のシステム。
  39. データストレージシステムに格納されたデータをマッピングするシステムであって、
    なくとも一つの入力データセットからデータ受取り、且つ、なくとも一つの出力データセットにデータを出力するデータ処理プログラムの仕様を格納するデータストレージシステムと、
    第1のデータセット候補を特定し、前記第1のデータセット候補は前記データ処理プログラムのうちの第1のデータ処理プログラムに表現され、前記第1のデータセット候補は第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、手段であって、
    第2のデータセット候補を特定し、前記第2のデータセット候補は前記データ処理プログラムのうちの第2のデータ処理プログラムに表現され、前記第2のデータセット候補は前記第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、手段と、
    前記第1のデータセット候補と前記第2のデータセット候補との間のマッピングを受け取るユーザインターフェースを提供する手段であって、前記マッピングは、前記第1のデータセット候補と前記第2のデータセット候補の双方が同じデータセットを表現することを示す、手段と、
    前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補に対してデータを提供する、または前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補からデータを受け取るデータ処理プログラムに関連して前記ユーザインターフェースを通して受け取られた前記マッピングを格納する手段と、
    を含むシステム。
  40. データストレージシステムに格納されたデータをマッピングするためのコンピュータプログラムを格納するコンピュータ読み取り可能ストレージデバイスであって、前記コンピュータプログラムは、コンピュータに
    なくとも一つの入力データセットからデータ受取り、且つ、なくとも一つの出力データセットにデータを出力するデータ処理プログラムの仕様を処理させる命令と、
    第1のデータセット候補を特定させる命令であって、前記第1のデータセット候補は前記データ処理プログラムのうちの第1のデータ処理プログラムに表現され、前記第1のデータセット候補は第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、命令と、
    第2のデータセット候補を特定させる命令であって、前記第2のデータセット候補は前記データ処理プログラムのうちの第2のデータ処理プログラムに表現され、前記第2のデータセット候補は前記第1のデータセットの異なるバージョンを特定するための一つ以上の基準に一致する、命令と、
    前記第1のデータセット候補と前記第2のデータセット候補との間のマッピングを受け取るユーザインターフェースを提供させる命令であって、前記マッピングは、前記第1のデータセット候補と前記第2のデータセット候補の双方が同じデータセットを表現することを示す、命令と、
    前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補に対してデータを提供する、または前記マッピングの前記第1のデータセット候補もしくは前記第2のデータセット候補からデータを受け取るデータ処理プログラムに関連して前記ユーザインターフェースを通して受け取られた前記マッピングを格納させる命令
    を含む、コンピュータ読み取り可能ストレージデバイス
  41. 前記第1のデータセットの各バージョンは、前記データストレージシステムに関連した異なる場所に格納される請求項1に記載の方法。
  42. 前記第1のデータセットの各バージョンは、異なるデータストレージフォーマットを用いて解釈される請求項1に記載の方法。
  43. 前記第1のデータセットの各バージョンは、前記データ処理プログラムの実行間で変化するパラメータを用いてアクセスされる請求項1に記載の方法。
  44. 前記第1のデータセットの各バージョンは、前記データストレージシステムに関連した異なる場所に格納される請求項20に記載のシステム。
  45. 前記第1のデータセットの各バージョンは、異なるデータストレージフォーマットを用いて解釈される請求項20に記載のシステム。
  46. 前記第1のデータセットの各バージョンは、前記データフローグラフの実行間で変化するパラメータを用いてアクセスされる請求項20に記載のシステム。
  47. 前記ユーザインターフェースが前記セットを提示する請求項39に記載のシステム。
  48. 前記ユーザインターフェースが、前記一つ以上の基準への一致の数量化に従って順位付けられた、可能性のあるマッピングのリストを提示する請求項39に記載のシステム。
  49. 前記可能性のあるマッピングのリストは、前記リスト内にてより高位に順序付けられた所与のデータセットのバージョンである可能性がより高い候補を含む請求項48に記載のシステム。
  50. 前記第1のデータセット候補及び前記第2のデータセット候補を特定する前記手段は、前記基準の一つを含む請求項48に記載のシステム。
  51. 前記基準の一つは、前記ユーザインターフェースによって受信される請求項48に記載のシステム。
  52. 前記可能性のあるマッピングの少なくとも一つは前記データセット候補の1つを表現するデータフローグラフの構成要素を示し、且つ、前記可能性のあるマッピングの少なくとも一つは前記データセット候補の1つを表現しないデータフローグラフの構成要素を示す、請求項48に記載のシステム。
  53. 複数の構成要素を含むデータフローグラフのサブグラフは前記データセット候補の1つを表現する請求項52に記載のシステム。
  54. 前記サブグラフはデータ構成要素を含む請求項53に記載のシステム。
  55. 前記サブグラフは実行可能な構成要素を含む請求項53に記載のシステム。
  56. 前記第1のデータセット候補及び前記第2のデータセット候補を特定する前記手段は、前記第1のデータセット候補が前記第2のデータセット候補と共通の一つ以上の特徴を有するか否かを判別するためのヒューリスティックスを使用する請求項39に記載のシステム。
  57. 前記特徴は前記データセット候補の一つの表現におけるバイト及びレコードの量を含む請求項56に記載のシステム。
  58. 前記特徴は前記データセット候補の一つの表現の名称を含む請求項56に記載のシステム。
  59. 前記特徴は前記データセット候補の一つの表現の生成日を含む請求項56に記載のシステム。
  60. 前記特徴は前記データセット候補の一つの表現のデータフォーマットを含む請求項56に記載のシステム。
  61. 前記マッピングの前記第1のデータセット候補及び前記第2のデータセット候補の少なくとも一つはデータ管理システムに知られているデータセットのグループに属する請求項39に記載のシステム。
  62. 前記第1のデータセット候補及び前記第2のデータセット候補を特定する前記手段は、前記第1のデータセット候補と前記第2のデータセット候補との間のフォーマットマッピングを発生する請求項39に記載のシステム。
  63. 前記第1のデータセットの各バージョンは、前記データストレージシステムに関連した異なる場所に格納される請求項39に記載のシステム。
  64. 前記第1のデータセットの各バージョンは、異なるデータストレージフォーマットを用いて解釈される請求項39に記載のシステム。
  65. 前記第1のデータセットの各バージョンは、前記データフローグラフの実行間で変化するパラメータを用いてアクセスされる請求項39に記載のシステム。
  66. 前記コンピュータプログラムは、コンピュータに、前記第1のデータセット候補及び前記第2のデータセット候補を前記ユーザインターフェースを通して提示させる命令をさらに含む、請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  67. 前記コンピュータプログラムは、コンピュータに、前記一つ以上の基準への一致の数量化に従って順位付けられた、可能性のあるマッピングのリストを前記ユーザインターフェースを通して提示させる命令をさらに含む、請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  68. 前記可能性のあるマッピングのリストは、前記リスト内にてより高位に順序付けられた所与のデータセットのバージョンである可能性がより高い候補を含む請求項67に記載のコンピュータ読み取り可能ストレージデバイス
  69. 前記基準の一つが前記第1のデータセット候補及び前記第2のデータセット候補を特定するマッパに組込まれている請求項67に記載のコンピュータ読み取り可能ストレージデバイス
  70. 前記基準の一つは前記ユーザインターフェースから受け取られる請求項67に記載のコンピュータ読み取り可能ストレージデバイス
  71. 前記可能性のあるマッピングの少なくとも一つは前記データセット候補の一つを表現するデータフローグラフの構成要素を示し、且つ、前記可能性のあるマッピングの少なくとも一つは前記データセット候補の一つを表現しないデータフローグラフの構成要素を示す、請求項67に記載のコンピュータ読み取り可能ストレージデバイス
  72. 複数の構成要素を含むデータフローグラフのサブグラフは前記データセット候補の一つを表現する請求項71に記載のコンピュータ読み取り可能ストレージデバイス
  73. 前記サブグラフはデータ構成要素を含む請求項72に記載のコンピュータ読み取り可能ストレージデバイス
  74. 前記サブグラフは実行可能な構成要素を含む請求項72に記載のコンピュータ読み取り可能ストレージデバイス
  75. 前記第1のデータセット候補及び前記第2のデータセット候補を特定することは、前記第1のデータセット候補が前記第2のデータセット候補と共通の一つ以上の特徴を有するか否かを判別するためのヒューリスティックスを使用することを含む請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  76. 前記特徴は前記データセット候補の一つの表現におけるバイト及びレコードの量を含む請求項75に記載のコンピュータ読み取り可能ストレージデバイス
  77. 前記特徴は前記データセット候補の一つの表現の名称を含む請求項75に記載のコンピュータ読み取り可能ストレージデバイス
  78. 前記特徴は前記データセット候補の一つの表現の生成日を含む請求項75に記載のコンピュータ読み取り可能ストレージデバイス
  79. 前記特徴は前記データセット候補の一つの表現のデータフォーマットを含む請求項75に記載のコンピュータ読み取り可能ストレージデバイス
  80. 前記マッピングの前記第1のデータセット候補及び前記第2のデータセット候補の少なくとも一つはデータ管理システムに知られているデータセットのグループに属する請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  81. 前記コンピュータプログラムは、コンピュータに、前記第1のデータセット候補と前記第2のデータセット候補との間のフォーマットマッピングを提供させる命令をさらに含む、請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  82. 前記マッピングは、前記第1のデータセット候補及び前記第2のデータセット候補を追跡するデータ管理システムにおけるレコードを指し示す識別子を含む請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  83. 前記コンピュータプログラムは、コンピュータに、前記第1のデータセット候補及び前記第2のデータセット候補の一方又は双方の変化に基づいて前記マッピングを更新させる命令をさらに含む、請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  84. 前記第1のデータセットの各バージョンは、前記データストレージシステムに関連した異なる場所に格納される請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  85. 前記第1のデータセットの各バージョンは、異なるデータストレージフォーマットを用いて解釈される請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  86. 前記第1のデータセットの各バージョンは、前記データフローグラフの実行間で変化するパラメータを用いてアクセスされる請求項40に記載のコンピュータ読み取り可能ストレージデバイス
  87. 前記データ処理プログラムの少なくとも一つは、データのフローを表現するリンクによって相互接続された計算を表現するノードを含むデータフローグラフを含み、前記データフローグラフは、前記少なくとも一つの入力データセットからデータのフローを受け取り、且つ、前記少なくとも一つの出力データセットにデータのフローを提供する請求項1に記載の方法。
  88. 前記第1のデータ処理プログラムはデータフローグラフのサブグラフであり、前記第2のデータ処理プログラムは前記データフローグラフのサブグラフである、請求項1に記載の方法。
  89. 前記データ処理プログラムの少なくとも一つは、データのフローを表現するリンクによって相互接続された計算を表現するノードを含むデータフローグラフを含み、前記データフローグラフは、前記少なくとも一つの入力データセットからデータのフローを受け取り、且つ、前記少なくとも一つの出力データセットにデータのフローを提供する請求項20に記載のシステム。
  90. 前記第1のデータ処理プログラムはデータフローグラフのサブグラフであり、前記第2のデータ処理プログラムは前記データフローグラフのサブグラフである、請求項20に記載のシステム。
  91. 前記データ処理プログラムの少なくとも一つは、データのフローを表現するリンクによって相互接続された計算を表現するノードを含むデータフローグラフを含み、前記データフローグラフは、前記少なくとも一つの入力データセットからデータのフローを受け取り、且つ、前記少なくとも一つの出力データセットにデータのフローを提供する請求項39に記載のシステム。
  92. 前記第1のデータ処理プログラムはデータフローグラフのサブグラフであり、前記第2のデータ処理プログラムは前記データフローグラフのサブグラフである、請求項39に記載のシステム。
  93. 前記データ処理プログラムの少なくとも一つは、データのフローを表現するリンクによって相互接続された計算を表現するノードを含むデータフローグラフを含み、前記データフローグラフは、前記少なくとも一つの入力データセットからデータのフローを受け取り、且つ、前記少なくとも一つの出力データセットにデータのフローを提供する請求項40に記載のコンピュータ読み取り可能ストレージデバイス。
  94. 前記第1のデータ処理プログラムはデータフローグラフのサブグラフであり、前記第2のデータ処理プログラムは前記データフローグラフのサブグラフである、請求項40に記載のコンピュータ読み取り可能ストレージデバイス。
  95. 前記第1のデータセットの各バージョンは、異なるデータフローグラフ、データフローグラフサブセットまたは実行可能な構成要素に関連する請求項87に記載の方法。
  96. 前記第1のデータセットの各バージョンは、異なるデータフローグラフ、データフローグラフサブセットまたは実行可能な構成要素に関連する請求項89に記載のシステム。
  97. 前記第1のデータセットの各バージョンは、異なるデータフローグラフ、データフローグラフサブセットまたは実行可能な構成要素に関連する請求項91に記載のシステム。
  98. 前記第1のデータセットの各バージョンは、異なるデータフローグラフ、データフローグラフサブセットまたは実行可能な構成要素に関連する請求項93に記載のコンピュータ読み取り可能ストレージデバイス。
JP2011539631A 2008-12-02 2009-12-01 データ管理システム内のデータセットのインスタンスのマッピング Active JP5525541B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11916408P 2008-12-02 2008-12-02
US61/119,164 2008-12-02
PCT/US2009/066210 WO2010065511A1 (en) 2008-12-02 2009-12-01 Mapping instances of a dataset within a data management system

Publications (3)

Publication Number Publication Date
JP2012510687A JP2012510687A (ja) 2012-05-10
JP2012510687A5 JP2012510687A5 (ja) 2013-01-24
JP5525541B2 true JP5525541B2 (ja) 2014-06-18

Family

ID=42223717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011539631A Active JP5525541B2 (ja) 2008-12-02 2009-12-01 データ管理システム内のデータセットのインスタンスのマッピング

Country Status (8)

Country Link
US (2) US20100138388A1 (ja)
EP (1) EP2370892B1 (ja)
JP (1) JP5525541B2 (ja)
KR (2) KR101661532B1 (ja)
CN (1) CN102232212B (ja)
AU (1) AU2009322602B2 (ja)
CA (1) CA2744881C (ja)
WO (1) WO2010065511A1 (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7389275B2 (en) 2002-03-05 2008-06-17 Visa U.S.A. Inc. System for personal authorization control for card transactions
US9262490B2 (en) * 2004-08-12 2016-02-16 Oracle International Corporation Adaptively routing transactions to servers
WO2010065511A1 (en) 2008-12-02 2010-06-10 Ab Initio Software Llc Mapping instances of a dataset within a data management system
JP6121163B2 (ja) 2009-09-16 2017-04-26 アビニシオ テクノロジー エルエルシー データセット要素のマッピング
US9727438B2 (en) * 2010-08-25 2017-08-08 Ab Initio Technology Llc Evaluating dataflow graph characteristics
US9396283B2 (en) 2010-10-22 2016-07-19 Daniel Paul Miranker System for accessing a relational database using semantic queries
CA2814835C (en) * 2010-10-25 2019-01-08 Ab Initio Technology Llc Managing data set objects in a dataflow graph that represents a computer program
AU2012204292B2 (en) * 2011-01-07 2016-05-19 Ab Initio Technology Llc Flow analysis instrumentation
WO2012097278A1 (en) 2011-01-14 2012-07-19 Ab Initio Technology Llc Managing changes to collections of data
US8217945B1 (en) 2011-09-02 2012-07-10 Metric Insights, Inc. Social annotation of a single evolving visual representation of a changing dataset
US8538934B2 (en) * 2011-10-28 2013-09-17 Microsoft Corporation Contextual gravitation of datasets and data services
WO2014018641A2 (en) 2012-07-24 2014-01-30 Ab Initio Technology Llc Mapping entities in data models
US9444674B2 (en) 2012-10-02 2016-09-13 Microsoft Technology Licensing, Llc Heuristic analysis of responses to user requests
US10489360B2 (en) 2012-10-17 2019-11-26 Ab Initio Technology Llc Specifying and applying rules to data
WO2014209260A1 (en) * 2013-06-24 2014-12-31 Hewlett-Packard Development Company, L.P. Processing a data flow graph of a hybrid flow
GB2534693B (en) * 2013-11-08 2017-02-08 Exacttrak Ltd Data accessibility control
KR102409552B1 (ko) 2014-03-14 2022-06-15 아브 이니티오 테크놀로지 엘엘시 키드 엔티티들의 속성 매핑
US10877955B2 (en) * 2014-04-29 2020-12-29 Microsoft Technology Licensing, Llc Using lineage to infer data quality issues
US10089409B2 (en) 2014-04-29 2018-10-02 Microsoft Technology Licensing, Llc Event-triggered data quality verification
KR102148984B1 (ko) * 2014-05-29 2020-08-27 삼성에스디에스 주식회사 데이터 처리 시스템 및 방법
EP3191962B1 (en) 2014-07-18 2019-12-11 AB Initio Technology LLC Managing parameter sets
CN105302843A (zh) * 2014-08-01 2016-02-03 友劲科技股份有限公司 管理系统与管理方法
TWI540861B (zh) * 2014-08-01 2016-07-01 友勁科技股份有限公司 管理系統與管理方法
US9626393B2 (en) 2014-09-10 2017-04-18 Ab Initio Technology Llc Conditional validation rules
JP6598973B2 (ja) * 2015-03-23 2019-10-30 モルガン スタンレー サービシーズ グループ,インコーポレイテッド 分散コンピューティングシステムにおけるデータフローの追跡
WO2016177405A1 (en) * 2015-05-05 2016-11-10 Huawei Technologies Co., Ltd. Systems and methods for transformation of a dataflow graph for execution on a processing system
US11036697B2 (en) * 2016-06-19 2021-06-15 Data.World, Inc. Transmuting data associations among data arrangements to facilitate data operations in a system of networked collaborative datasets
US10747774B2 (en) 2016-06-19 2020-08-18 Data.World, Inc. Interactive interfaces to present data arrangement overviews and summarized dataset attributes for collaborative datasets
US11042556B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Localized link formation to perform implicitly federated queries using extended computerized query language syntax
US10452975B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11042537B2 (en) * 2016-06-19 2021-06-22 Data.World, Inc. Link-formative auxiliary queries applied at data ingestion to facilitate data operations in a system of networked collaborative datasets
US11468049B2 (en) * 2016-06-19 2022-10-11 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US11086896B2 (en) * 2016-06-19 2021-08-10 Data.World, Inc. Dynamic composite data dictionary to facilitate data operations via computerized tools configured to access collaborative datasets in a networked computing platform
US10853376B2 (en) 2016-06-19 2020-12-01 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
US10438013B2 (en) 2016-06-19 2019-10-08 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11023104B2 (en) 2016-06-19 2021-06-01 data.world,Inc. Interactive interfaces as computerized tools to present summarization data of dataset attributes for collaborative datasets
US10645548B2 (en) 2016-06-19 2020-05-05 Data.World, Inc. Computerized tool implementation of layered data files to discover, form, or analyze dataset interrelations of networked collaborative datasets
US10824637B2 (en) 2017-03-09 2020-11-03 Data.World, Inc. Matching subsets of tabular data arrangements to subsets of graphical data arrangements at ingestion into data driven collaborative datasets
US11036716B2 (en) 2016-06-19 2021-06-15 Data World, Inc. Layered data generation and data remediation to facilitate formation of interrelated data in a system of networked collaborative datasets
US10452677B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11068847B2 (en) 2016-06-19 2021-07-20 Data.World, Inc. Computerized tools to facilitate data project development via data access layering logic in a networked computing platform including collaborative datasets
US10324925B2 (en) 2016-06-19 2019-06-18 Data.World, Inc. Query generation for collaborative datasets
US11755602B2 (en) 2016-06-19 2023-09-12 Data.World, Inc. Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
US10353911B2 (en) 2016-06-19 2019-07-16 Data.World, Inc. Computerized tools to discover, form, and analyze dataset interrelations among a system of networked collaborative datasets
US11947554B2 (en) 2016-06-19 2024-04-02 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US11042560B2 (en) 2016-06-19 2021-06-22 data. world, Inc. Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects
US11334625B2 (en) 2016-06-19 2022-05-17 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US11042548B2 (en) 2016-06-19 2021-06-22 Data World, Inc. Aggregation of ancillary data associated with source data in a system of networked collaborative datasets
US11016931B2 (en) * 2016-06-19 2021-05-25 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US11675808B2 (en) 2016-06-19 2023-06-13 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11941140B2 (en) 2016-06-19 2024-03-26 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11093703B2 (en) * 2016-09-29 2021-08-17 Google Llc Generating charts from data in a data table
US11238109B2 (en) * 2017-03-09 2022-02-01 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US11068453B2 (en) * 2017-03-09 2021-07-20 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
US10691729B2 (en) * 2017-07-07 2020-06-23 Palantir Technologies Inc. Systems and methods for providing an object platform for a relational database
US10592147B2 (en) 2017-07-26 2020-03-17 International Business Machines Corporation Dataset relevance estimation in storage systems
US10671303B2 (en) 2017-09-13 2020-06-02 International Business Machines Corporation Controlling a storage system
US11243960B2 (en) 2018-03-20 2022-02-08 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
US10922308B2 (en) 2018-03-20 2021-02-16 Data.World, Inc. Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
CN110297699B (zh) * 2018-03-23 2021-09-14 华为技术有限公司 调度方法、调度器、存储介质及系统
US11947529B2 (en) 2018-05-22 2024-04-02 Data.World, Inc. Generating and analyzing a data model to identify relevant data catalog data derived from graph-based data arrangements to perform an action
USD940732S1 (en) 2018-05-22 2022-01-11 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11327991B2 (en) * 2018-05-22 2022-05-10 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
USD940169S1 (en) 2018-05-22 2022-01-04 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11442988B2 (en) 2018-06-07 2022-09-13 Data.World, Inc. Method and system for editing and maintaining a graph schema
KR20210046487A (ko) * 2019-10-18 2021-04-28 삼성전자주식회사 데이터 베이스에 포함된 데이터를 분석하는 데이터 분석 장치 및 방법
EP4285238A1 (en) * 2021-01-31 2023-12-06 Ab Initio Technology LLC Data processing system with manipulation of logical dataset groups
US20230169124A1 (en) * 2021-11-30 2023-06-01 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US11947600B2 (en) 2021-11-30 2024-04-02 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
CN115017251B (zh) * 2022-08-05 2022-10-25 山东省计算中心(国家超级计算济南中心) 一种用于智慧城市的标准映射地图建立方法及系统

Family Cites Families (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168441A (en) 1990-05-30 1992-12-01 Allen-Bradley Company, Inc. Methods for set up and programming of machine and process controllers
US5446885A (en) 1992-05-15 1995-08-29 International Business Machines Corporation Event driven management information system with rule-based applications structure stored in a relational database
JPH0744368A (ja) 1993-07-29 1995-02-14 Hitachi Ltd 組合せモデルの編集システム
US5758351A (en) * 1995-03-01 1998-05-26 Sterling Software, Inc. System and method for the creation and use of surrogate information system objects
US5966072A (en) * 1996-07-02 1999-10-12 Ab Initio Software Corporation Executing computations expressed as graphs
US6216140B1 (en) * 1997-09-17 2001-04-10 Hewlett-Packard Company Methodology for the efficient management of hierarchically organized information
US6216131B1 (en) * 1998-02-06 2001-04-10 Starfish Software, Inc. Methods for mapping data fields from one data set to another in a data processing environment
US6088702A (en) 1998-02-25 2000-07-11 Plantz; Scott H. Group publishing system
US6948154B1 (en) * 1999-03-22 2005-09-20 Oregon State University Methodology for testing spreadsheets
US7120638B1 (en) * 1999-09-21 2006-10-10 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
US6633875B2 (en) 1999-12-30 2003-10-14 Shaun Michael Brady Computer database system and method for collecting and reporting real estate property and loan performance information over a computer driven network
GB2358072B (en) 2000-01-07 2004-01-28 Mitel Corp Tabular range editing mechanism
US7164422B1 (en) * 2000-07-28 2007-01-16 Ab Initio Software Corporation Parameterized graphs with conditional components
US6704024B2 (en) * 2000-08-07 2004-03-09 Zframe, Inc. Visual content browsing using rasterized representations
US6708186B1 (en) * 2000-08-14 2004-03-16 Oracle International Corporation Aggregating and manipulating dictionary metadata in a database system
US7143076B2 (en) 2000-12-12 2006-11-28 Sap Aktiengesellschaft Method and apparatus for transforming data
US6629098B2 (en) 2001-01-16 2003-09-30 Hewlett-Packard Development Company, L.P. Method and system for validating data submitted to a database application
US7117430B2 (en) * 2001-02-27 2006-10-03 Microsoft Corporation Spreadsheet error checker
US7614036B2 (en) * 2001-03-22 2009-11-03 Robert D Bjornson Method and system for dataflow creation and execution
JP2002279147A (ja) 2001-03-22 2002-09-27 Sharp Corp 内製化判断支援装置、内製化判断支援方法および内製化判断支援プログラムを記録した機械読取可能な記録媒体および内製化判断支援プログラム
US7853553B2 (en) * 2001-03-26 2010-12-14 Siebel Systems, Inc. Engine for converting data from a source format to a destination format using user defined mappings
US6732095B1 (en) 2001-04-13 2004-05-04 Siebel Systems, Inc. Method and apparatus for mapping between XML and relational representations
US6494159B2 (en) * 2001-05-11 2002-12-17 The United States Of America As Represented By The Secretary Of The Navy Submarine launched unmanned combat vehicle replenishment
US6832366B2 (en) 2001-05-17 2004-12-14 Simdesk Technologies, Inc. Application generator
US7099885B2 (en) * 2001-05-25 2006-08-29 Unicorn Solutions Method and system for collaborative ontology modeling
US6868526B2 (en) * 2001-07-18 2005-03-15 The Mathworks, Inc. Graphical subclassing
AUPR966001A0 (en) * 2001-12-20 2002-01-24 Canon Information Systems Research Australia Pty Ltd A microprocessor card defining a custom user interface
US7080088B1 (en) * 2002-01-30 2006-07-18 Oracle International Corporation Automatic reconciliation of bindable objects
US7185317B2 (en) 2002-02-14 2007-02-27 Hubbard & Wells Logical data modeling and integrated application framework
US6820077B2 (en) 2002-02-22 2004-11-16 Informatica Corporation Method and system for navigating a large amount of data
US7110924B2 (en) * 2002-05-15 2006-09-19 Caterpillar Inc. Method for controlling the performance of a target system
US7574652B2 (en) * 2002-06-20 2009-08-11 Canon Kabushiki Kaisha Methods for interactively defining transforms and for generating queries by manipulating existing query data
US20050144189A1 (en) 2002-07-19 2005-06-30 Keay Edwards Electronic item management and archival system and method of operating the same
US7167850B2 (en) * 2002-10-10 2007-01-23 Ab Initio Software Corporation Startup and control of graph-based computation
US7225301B2 (en) 2002-11-22 2007-05-29 Quicksilver Technologies External memory controller node
US7257603B2 (en) 2003-05-08 2007-08-14 Microsoft Corporation Preview mode
US20040225632A1 (en) 2003-05-08 2004-11-11 Microsoft Corporation Automated information management and related methods
US20050010896A1 (en) 2003-07-07 2005-01-13 International Business Machines Corporation Universal format transformation between relational database management systems and extensible markup language using XML relational transformation
US20050060317A1 (en) * 2003-09-12 2005-03-17 Lott Christopher Martin Method and system for the specification of interface definitions and business rules and automatic generation of message validation and transformation software
KR100922141B1 (ko) * 2003-09-15 2009-10-19 아브 이니티오 소프트웨어 엘엘시 데이터 프로파일링 방법 및 시스템
US7865507B2 (en) * 2003-09-15 2011-01-04 Oracle International Corporation Data quality analyzer
US7765529B1 (en) * 2003-10-31 2010-07-27 The Mathworks, Inc. Transforming graphical objects in a graphical modeling environment
US7743382B2 (en) * 2003-11-03 2010-06-22 Ramal Acquisition Corp. System for deadlock condition detection and correction by allowing a queue limit of a number of data tokens on the queue to increase
US20050187984A1 (en) * 2004-02-20 2005-08-25 Tianlong Chen Data driven database management system and method
US8165853B2 (en) * 2004-04-16 2012-04-24 Knowledgebase Marketing, Inc. Dimension reduction in predictive model development
JP4275013B2 (ja) * 2004-06-21 2009-06-10 三洋電機株式会社 データフローグラフ処理装置、処理装置、リコンフィギュラブル回路。
US7536406B2 (en) 2004-06-23 2009-05-19 Microsoft Corporation Impact analysis in an object model
US20060007464A1 (en) 2004-06-30 2006-01-12 Percey Michael F Structured data update and transformation system
US7353227B2 (en) * 2004-07-23 2008-04-01 Sap Aktiengesellschaft Conflict resolution engine
US7899833B2 (en) 2004-11-02 2011-03-01 Ab Initio Technology Llc Managing related data objects
WO2006096681A1 (en) * 2005-03-07 2006-09-14 Computer Associates Think, Inc. System and method for data manipulation
JP4550641B2 (ja) 2005-03-30 2010-09-22 大陽日酸エンジニアリング株式会社 データ照合装置及び方法
US8255363B2 (en) 2005-06-08 2012-08-28 rPath Methods, systems, and computer program products for provisioning software using dynamic tags to identify and process files
US8630917B2 (en) * 2005-06-09 2014-01-14 At&T Intellectual Property Ii, L.P. Arrangement for guiding user design of comprehensive product solution using on-the-fly data validation
US7716630B2 (en) * 2005-06-27 2010-05-11 Ab Initio Technology Llc Managing parameters for graph-based computations
US7877350B2 (en) * 2005-06-27 2011-01-25 Ab Initio Technology Llc Managing metadata for graph-based computations
US7464105B2 (en) * 2005-07-06 2008-12-09 International Business Machines Corporation Method for performing semi-automatic dataset maintenance
US7870162B2 (en) * 2005-07-29 2011-01-11 Sap Ag Method for generating properly formed expressions
US20070050705A1 (en) * 2005-08-30 2007-03-01 Erxiang Liu Method of xml element level comparison and assertion utilizing an application-specific parser
US20070050750A1 (en) 2005-08-31 2007-03-01 Microsoft Corporation Extensible data-driven setup application for operating system
WO2007048229A1 (en) * 2005-10-25 2007-05-03 Angoss Software Corporation Strategy trees for data mining
US8060821B2 (en) * 2005-12-09 2011-11-15 Apple Inc. Enhanced visual feedback of interactions with user interface
US20070179956A1 (en) 2006-01-18 2007-08-02 Whitmyer Wesley W Jr Record protection system for networked databases
US7761586B2 (en) * 2006-02-06 2010-07-20 Microsoft Corporation Accessing and manipulating data in a data flow graph
US7661067B2 (en) * 2006-02-21 2010-02-09 International Business Machines Corporation Method for providing quick responses in instant messaging conversations
US7647298B2 (en) * 2006-03-23 2010-01-12 Microsoft Corporation Generation of query and update views for object relational mapping
US20070294119A1 (en) * 2006-03-30 2007-12-20 Adaptive Alpha, Llc System, method and computer program product for evaluating and rating an asset management business and associate investment funds using experiential business process and performance data, and applications thereof
US8868577B2 (en) * 2006-03-31 2014-10-21 Sap Se Generic database manipulator
US7797319B2 (en) * 2006-05-15 2010-09-14 Algebraix Data Corporation Systems and methods for data model mapping
US7870556B2 (en) * 2006-05-16 2011-01-11 Ab Initio Technology Llc Managing computing resources in graph-based computations
US7970746B2 (en) 2006-06-13 2011-06-28 Microsoft Corporation Declarative management framework
US7689565B1 (en) 2006-06-28 2010-03-30 Emc Corporation Methods and apparatus for synchronizing network management data
US8572236B2 (en) * 2006-08-10 2013-10-29 Ab Initio Technology Llc Distributing services in graph-based computations
US20080083237A1 (en) * 2006-10-06 2008-04-10 Hussmann Corporation Electronic head pressure control
US8423564B1 (en) 2006-10-31 2013-04-16 Ncr Corporation Methods and apparatus for managing and updating stored information
US20080126988A1 (en) 2006-11-24 2008-05-29 Jayprakash Mudaliar Application management tool
US8538918B1 (en) * 2006-12-05 2013-09-17 Corelogic Solutions, Llc Systems and methods for tracking parcel data acquisition
US20080162384A1 (en) * 2006-12-28 2008-07-03 Privacy Networks, Inc. Statistical Heuristic Classification
GB0700450D0 (en) * 2007-01-10 2007-02-21 Radiation Watch Ltd The RWL threat engine
US9430552B2 (en) * 2007-03-16 2016-08-30 Microsoft Technology Licensing, Llc View maintenance rules for an update pipeline of an object-relational mapping (ORM) platform
US20080243765A1 (en) * 2007-03-29 2008-10-02 Ariel Fuxman Method for generating nested mapping specifications in a schema mapping formalism
US7603368B2 (en) * 2007-03-30 2009-10-13 Fmr Llc Mapping data on a network
US8069129B2 (en) 2007-04-10 2011-11-29 Ab Initio Technology Llc Editing and compiling business rules
US8032404B2 (en) * 2007-06-13 2011-10-04 International Business Machines Corporation Method and system for estimating financial benefits of packaged application service projects
US8694518B2 (en) * 2007-06-14 2014-04-08 Colorquick, L.L.C. Method and apparatus for database mapping
US8103704B2 (en) 2007-07-31 2012-01-24 ePrentise, LLC Method for database consolidation and database separation
US7912264B2 (en) * 2007-08-03 2011-03-22 Siemens Medical Solutions Usa, Inc. Multi-volume rendering of single mode data in medical diagnostic imaging
US7860863B2 (en) 2007-09-05 2010-12-28 International Business Machines Corporation Optimization model for processing hierarchical data in stream systems
US8566296B2 (en) * 2007-09-14 2013-10-22 Oracle International Corporation Support for compensation aware data types in relational database systems
CN101884024B (zh) * 2007-09-20 2016-03-30 起元技术有限责任公司 在基于图的计算中管理数据流
CA2701046C (en) * 2007-09-28 2016-07-19 Initiate Systems, Inc. Analysis of a system for matching data records
US8078651B2 (en) * 2008-01-24 2011-12-13 Oracle International Corporation Match rules to identify duplicate records in inbound data
US20090234623A1 (en) 2008-03-12 2009-09-17 Schlumberger Technology Corporation Validating field data
JP4224126B1 (ja) * 2008-06-09 2009-02-12 パナソニック株式会社 データベース管理サーバ装置、データベース管理システム、データベース管理方法およびデータベース管理プログラム
US20090319494A1 (en) * 2008-06-20 2009-12-24 Microsoft Corporation Field mapping for data stream output
AU2009267034B2 (en) * 2008-06-30 2015-12-10 Ab Initio Technology Llc Data logging in graph-based computations
US20100083237A1 (en) * 2008-09-26 2010-04-01 Arm Limited Reducing trace overheads by modifying trace operations
US8082228B2 (en) * 2008-10-31 2011-12-20 Netapp, Inc. Remote office duplication
KR101688554B1 (ko) 2008-11-12 2016-12-21 아브 이니티오 테크놀로지 엘엘시 데이터 객체의 관리 및 자동 링킹
WO2010065511A1 (en) 2008-12-02 2010-06-10 Ab Initio Software Llc Mapping instances of a dataset within a data management system
CA2744876C (en) 2008-12-02 2017-08-29 Ab Initio Technology Llc Data maintenance system
AU2010208112B2 (en) * 2009-01-30 2015-05-28 Ab Initio Technology Llc Processing data using vector fields
EP2221733A1 (en) 2009-02-17 2010-08-25 AMADEUS sas Method allowing validation in a production database of new entered data prior to their release
US8935702B2 (en) * 2009-09-04 2015-01-13 International Business Machines Corporation Resource optimization for parallel data integration
JP6121163B2 (ja) * 2009-09-16 2017-04-26 アビニシオ テクノロジー エルエルシー データセット要素のマッピング
JP5401279B2 (ja) 2009-11-26 2014-01-29 株式会社日立製作所 チェックルール設計支援方法、チェックルール設計支援システム、およびチェックルール設計支援プログラム
US9805015B2 (en) 2009-12-16 2017-10-31 Teradata Us, Inc. System and method for enhanced user interactions with a grid
US8555265B2 (en) 2010-05-04 2013-10-08 Google Inc. Parallel processing of data
US8583664B2 (en) * 2010-05-26 2013-11-12 Microsoft Corporation Exposing metadata relationships through filter interplay
US8732143B2 (en) * 2010-08-27 2014-05-20 Microsoft Corporation Reducing locking during database transactions
CA2814835C (en) * 2010-10-25 2019-01-08 Ab Initio Technology Llc Managing data set objects in a dataflow graph that represents a computer program
US8949166B2 (en) * 2010-12-16 2015-02-03 International Business Machines Corporation Creating and processing a data rule for data quality
WO2012097278A1 (en) * 2011-01-14 2012-07-19 Ab Initio Technology Llc Managing changes to collections of data
US20120310904A1 (en) 2011-06-01 2012-12-06 International Business Machine Corporation Data validation and service
US20130166515A1 (en) 2011-12-22 2013-06-27 David Kung Generating validation rules for a data report based on profiling the data report in a data processing tool
US8516008B1 (en) 2012-05-18 2013-08-20 Splunk Inc. Flexible schema column store
US10489360B2 (en) 2012-10-17 2019-11-26 Ab Initio Technology Llc Specifying and applying rules to data

Also Published As

Publication number Publication date
US11341155B2 (en) 2022-05-24
EP2370892A4 (en) 2016-03-09
KR101661532B1 (ko) 2016-09-30
US20200311098A1 (en) 2020-10-01
JP2012510687A (ja) 2012-05-10
KR20150042866A (ko) 2015-04-21
CA2744881A1 (en) 2010-06-10
CA2744881C (en) 2020-03-10
EP2370892A1 (en) 2011-10-05
AU2009322602A1 (en) 2010-06-10
WO2010065511A1 (en) 2010-06-10
AU2009322602B2 (en) 2015-06-25
EP2370892B1 (en) 2020-11-04
CN102232212A (zh) 2011-11-02
KR20110097921A (ko) 2011-08-31
CN102232212B (zh) 2015-11-25
US20100138388A1 (en) 2010-06-03

Similar Documents

Publication Publication Date Title
JP5525541B2 (ja) データ管理システム内のデータセットのインスタンスのマッピング
CN110291517B (zh) 图数据库中的查询语言互操作性
AU2017269108B2 (en) Optimizing read and write operations in object schema-based application programming interfaces (APIS)
CN105144080B (zh) 用于元数据管理的系统
CN101727320B (zh) 用于识别数据库更改对应用的影响的方法和系统
US7421458B1 (en) Querying, versioning, and dynamic deployment of database objects
US20060235899A1 (en) Method of migrating legacy database systems
US20240104113A1 (en) Publishing to a data warehouse
US20090037395A1 (en) Persistent query system for automatic on-demand data subscriptions from mobile devices
US8635594B1 (en) Script language for storage management operations
US8230384B1 (en) Techniques for generating and processing a schema instance
US10296542B2 (en) Integration database framework
US7792851B2 (en) Mechanism for defining queries in terms of data objects
JP2014507713A (ja) データの集合体に対する変更の管理
KR20060067812A (ko) 복합 데이터 액세스
US9477695B2 (en) Metadata cache supporting multiple heterogeneous systems
Elmeleegy et al. Leveraging query logs for schema mapping generation in U-MAP
CN116450890A (zh) 图数据处理方法、装置、系统、电子设备及存储介质
US20060136804A1 (en) Generating a relational view for a base model schema
US11803545B1 (en) Runtime statistics feedback for query plan cost estimation
US8103610B2 (en) Dynamic categorization of rules in expert systems wherein a profile definition yields classification data that classifies rules and allows for rules to be searchable
US9305111B1 (en) System and method of performing quantitative analysis via graph nodes representing programs
Elmeleegy et al. Leveraging Query Logs for Schema Mapping Generation in

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120319

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140411

R150 Certificate of patent or registration of utility model

Ref document number: 5525541

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250