JP6469878B2 - データ系統図のフィルタリング - Google Patents

データ系統図のフィルタリング Download PDF

Info

Publication number
JP6469878B2
JP6469878B2 JP2017540770A JP2017540770A JP6469878B2 JP 6469878 B2 JP6469878 B2 JP 6469878B2 JP 2017540770 A JP2017540770 A JP 2017540770A JP 2017540770 A JP2017540770 A JP 2017540770A JP 6469878 B2 JP6469878 B2 JP 6469878B2
Authority
JP
Japan
Prior art keywords
node
data
tag
nodes
lineage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017540770A
Other languages
English (en)
Other versions
JP2018511103A (ja
Inventor
ドゥサン ラディヴォジェヴィッチ
ドゥサン ラディヴォジェヴィッチ
Original Assignee
アビニシオ テクノロジー エルエルシー
アビニシオ テクノロジー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アビニシオ テクノロジー エルエルシー, アビニシオ テクノロジー エルエルシー filed Critical アビニシオ テクノロジー エルエルシー
Publication of JP2018511103A publication Critical patent/JP2018511103A/ja
Application granted granted Critical
Publication of JP6469878B2 publication Critical patent/JP6469878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願の相互参照
本出願は、2015年2月11日に出願した米国特許出願第62/114,684号の優先権を主張するものである。
この説明は、データ系統図(data lineage diagrams)のフィルタリングのための系統タグ(lineage tags)に関する。
データ処理システムにおいては、データがシステムを通過するときにデータの系統の視覚的表現に特定の種類のユーザがアクセスすることができることが望ましいことが多い。そのような「データ系統図」は、データ及びそれらのデータの間の依存関係を処理するためのシステムにおけるそれらのデータ及びエンティティ(entities)の図式的表現を含む可能性がある。極めて広く、多くの用途の中でもとりわけ、そのようなデータ系統図は、リスクを減らし、規制遵守義務を確認し、ビジネスプロセスを能率化し、データを保護するために使用され得る。データ系統図は正しく且つ完全であることが重要である。
データ系統図を生じさせ、表示することができる一部のシステムは、データアイテムとそれらのデータアイテムを消費するか又は生じさせる処理エンティティ(processing entities)を表すアイテムとの表現を示すエンドツーエンド(end-to-end)のデータ系統図を自動的に提示することができる。一部の例において、特定のアイテムから上流の系統のパス(a lineage path upstream)は、そのアイテムに関する「ディペンデンシー系統」(dependency lineage)と呼ばれることがあり、特定のアイテムから下流の系統のパス(a lineage path downstream)は、そのアイテムに関する「インパクト系統」(impact lineage)と呼ばれることがある。その他の例において、特定のアイテムから上流の系統のパスは、「系統」(lineage)又は「ディペンデンシー」(dependency)と呼ばれ、特定のアイテムから下流の系統のパスは、「インパクト」(impact)又は「インパクト分析」(impact analysis)と呼ばれる。本明細書において使用されるとき、「データ系統図」は、任意の所与のアイテムに関連する上流ディペンデンシー系統及び/又は下流インパクト系統を含む可能性がある。データ系統図を生じさせ、表示することができる一部のシステムは、ユーザがデータ系統図内のアイテムの論理的及び/又は物理的グループを単一の要素にまとめることを可能にする。データ系統図を生じさせ、表示することができる一部のシステムは、データ品質の採点などの充実したデータ情報によってデータ系統図を改善することができる。
一態様においては、概して、コンピューティングシステムにおいて系統情報を管理するための方法が、いくつかのノード(nodes)と、ノードの間のそれぞれの系統の関係を表す有向リンク(directed links)とを含む有向グラフ(directed graph)の仕様をデータストレージシステムに記憶するステップであって、ノードの少なくとも一部が、いくつかのタグ識別子(tag identifiers)のうちの1又は2以上のタグ識別子に関連付けられ、タグ識別子のうちの少なくとも1つのタグ識別子が、いくつかの可能なタグ値(tag values)を有する、前記記憶するステップと、いくつかのノードのうちの第1のノードに関するデータ系統の表現を求める要求を少なくとも1つのプロセッサを使用して処理するステップとを含む。前記処理するステップは、第1のノードといくつかのタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、第1のタグ識別子のいくつかの可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセット(subset)を決定すること、及び第1のノードに関するデータ系統を決定するために、第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースする(traverse)ことを含む。データ系統は、(1)第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含む。データ系統を決定することは、それぞれのトラバースされるノードに関して、少なくとも部分的にトラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、データ系統にトラバースされるノードを追加すべきか又はデータ系統からトラバースされるノードを除外すべきかを決定することを含む。
態様は、以下の1又は2以上の特徴を含み得る。
データ系統を決定することは、それぞれのトラバースされるノードに関して、トラバースされるノードが第1のタグ識別子に関連付けられないか、若しくはトラバースされるノードが第1のタグ識別子に関連付けられ、第1のサブセットの少なくとも1つのタグ値に関連付けられる場合にデータ系統にトラバースされるノードを追加すること、又はトラバースされるノードが第1のタグ識別子に関連付けられ、第1のタグ識別子のいくつかの可能なタグ値の第1のサブセットの少なくとも1つのタグ値に関連付けられない場合にデータ系統からトラバースされるノードを除外することを含む可能性がある。
データ系統からトラバースされるノードを除外すると、第1の系統のパスのトラバースが、終了される可能性がある。前記方法は、第1のタグ識別子に関連付けられ、第1のタグ識別子のいくつかの可能なタグ値の第1のサブセットの少なくとも1つのタグ値に関連付けられないいくつかのノードの第1のサブセットを決定するために、いくつかのノードのうちのノードをトラバースする前にいくつかのノードを分析するステップを含む可能性がある。データ系統にトラバースされるノードを追加すべきか又はデータ系統からトラバースされるノードを除外すべきかを決定することは、トラバースされるノードがいくつかのノードの第1のサブセットに含まれるかどうかを決定することを含む可能性がある。データ系統にトラバースされるノードを追加すべきかどうかを決定することは、トラバースされるノードがいくつかのノードの第1のサブセットに含まれない場合にデータ系統にトラバースされるノードを追加し、トラバースされるノードがいくつかのノードの第1のサブセットに含まれる場合にデータ系統からトラバースされるノードを除外することを含む可能性がある。
いくつかのノードの少なくとも一部のノードが、いくつかのノードのその他のノードの中に入れ子にされる(nested)可能性がある。ノードの入れ子にされた階層のより低いレベルのノードに関連するタグ識別子及びタグ値のタグ識別子に関連するサブセットが、ノードの入れ子にされた階層のより高いレベルのノードに関連するタグ識別子及びタグ値のタグ識別子に関連するサブセットを上回る優先度を与えられる可能性がある。第1の系統のパスに沿ってノードをトラバースすることは、第1のノードから始まるノードを有向リンクの方向と反対の方向にトラバースすることを含む可能性がある。
前記方法は、有向グラフの仕様を生じさせるステップであって、いくつかのノードのうちの1又は2以上が計算を表し、いくつかのノードのうちの1又は2以上が計算の実行中に受け取られるか又は計算によって生成されるデータ要素を表し、有向リンクが計算とデータ要素との間の系統の関係を表す前記ステップをさらに含む可能性がある。いくつかのノードのうちの1又は2以上は、いくつかのノードのうちの1又は2以上のその他のノードのグループ分けを表す可能性がある。第1のタグ識別子のいくつかの可能なタグ値の第1のサブセットは、第1のノードに関連付けられる1又は2以上のタグ値からなる可能性がある。
第1のタグ識別子のいくつかの可能なタグ値の第1のサブセットは、ユーザ入力(user input)から受け取られる1又は2以上のタグ値からなる可能性がある。前記方法は、第1のノードに関するデータ系統を決定するために第1のノードから有向リンクのいくつかの系統のパスに沿ってノードをトラバースするステップであって、データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的にトラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、データ系統にトラバースされるノードを追加すべきか又はデータ系統からトラバースされるノードを除外すべきかを決定することを含む前記ステップをさらに含む可能性がある。前記方法は、デフォルトでデータ系統に第1のノードを追加するステップをさらに含む可能性がある。
別の態様においては、概して、コンピュータ可読媒体に記憶された、コンピューティングシステムにおいて系統情報を管理するためのソフトウェアが、前記コンピューティングシステムに、いくつかのノードと、いくつかのノードの間のそれぞれの系統の関係を表す有向リンクとを含む有向グラフの仕様をデータストレージシステムに記憶することであって、ノードの少なくとも一部が、いくつかのタグ識別子のうちの1又は2以上のタグ識別子に関連付けられ、いくつかのタグ識別子のうちの少なくとも1つのタグ識別子が、いくつかの可能なタグ値を有する、前記記憶することと、いくつかのノードのうちの第1のノードに関するデータ系統の表現を求める要求を少なくとも1つのプロセッサを使用して処理することとを行わせるための命令を含む。前記処理することは、第1のノードといくつかのタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、第1のタグ識別子のいくつかの可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセットを決定すること、並びに第1のノードに関するデータ系統を決定するために、第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースすることであって、データ系統が、(1)第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含み、データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的にトラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、データ系統にトラバースされるノードを追加すべきか又はデータ系統からトラバースされるノードを除外すべきかを決定することを含む、前記トラバースすることを含む。
別の態様においては、概して、系統情報を管理するためのコンピューティングシステムが、いくつかのノードと、いくつかのノードの間のそれぞれの系統の関係を表す有向リンクとを含む有向グラフの仕様を記憶するデータストレージシステムであって、ノードの少なくとも一部が、いくつかのタグ識別子のうちの1又は2以上のタグ識別子に関連付けられ、いくつかのタグ識別子のうちの少なくとも1つのタグ識別子が、いくつかの可能なタグ値を有する、前記データストレージシステムと、いくつかのノードのうちの第1のノードに関するデータ系統の表現を求める要求を処理するように構成された少なくとも1つのプロセッサとを含む。前記処理することは、第1のノードといくつかのタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、第1のタグ識別子のいくつかの可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセットを決定すること、並びに第1のノードに関するデータ系統を決定するために、第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースすることであって、データ系統が、(1)第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含み、データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的にトラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、データ系統にトラバースされるノードを追加すべきか又はデータ系統からトラバースされるノードを除外すべきかを決定することを含む、前記トラバースすることを含む。
別の態様においては、概して、系統情報を管理するためのコンピューティングシステムが、いくつかのノードと、いくつかのノードの間のそれぞれの系統の関係を表す有向リンクとを含む有向グラフの仕様を記憶するための手段であって、ノードの少なくとも一部が、いくつかのタグ識別子のうちの1又は2以上のタグ識別子に関連付けられ、いくつかのタグ識別子のうちの少なくとも1つのタグ識別子が、いくつかの可能なタグ値を有する、前記記憶するための手段と、複数のノードのうちの第1のノードに関するデータ系統の表現を求める要求を処理するための手段とを含む。前記処理することは、第1のノードといくつかのタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、第1のタグ識別子のいくつかの可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセットを決定すること、並びに第1のノードに関するデータ系統を決定するために、第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースすることであって、データ系統が、(1)第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含み、データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的にトラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、データ系統にトラバースされるノードを追加すべきか又はデータ系統からトラバースされるノードを除外すべきかを決定することを含む、前記トラバースすることを含む。
態様は、1又は2以上の以下の利点を含む可能性がある。
いくつかの包括的な態様においては、本明細書において説明される手法が、ユーザが系統タグの形態の追加的な情報によってノードを拡張した系統図に適用され得る。フィルタリングによって選択されたオブジェクトに隣接するか又はフィルタリングによって選択されたオブジェクトの直接の系統又はインパクトパス(impact path)内のオブジェクトだけに系統を制限することなく特定のユーザ定義の次元(dimension)が目標にされ得るように系統図をフィルタリングするために、系統タグが使用される。
本明細書において説明される手法は、その他の技術(例えば、単純なフィルタリング又は系統要約(Lineage Summarization))よりも選択的な方法で複雑性を減らすために使用され得る。例えば、一部の系統図の複雑性の1つの原因は、正規化及び非正規化動作を実行するノードであり、系統タグの使用は、本明細書においてより詳細に説明されるように、そのような系統図の複雑性を減らすのに役立つ可能性がある。
手法は、それぞれが列挙値(enumerated values)の独自の組を有する異なる種類のタグをユーザが定義することを可能にすることによって選択性を実現する。それぞれの種類のタグは、独自の独立したフィルタリングの次元として働く。また、タグは、正規化及び非正規化を実行するノードなどに関する系統図の構成に基づいて自動的に定義され得る。
一部の例においては、どのノードをフィルタリングされたデータ系統図に含め、どのノードをフィルタリングされたデータ系統図から除外すべきかを選択するためのアルゴリズムが、系統図のノードを歩き(walk)、(タグに関連付けられたすべてのノードの)遭遇したタグをアクティブなタグの組と比較することによって何を実行すべきかを決定する。
利点の中でもとりわけ、本明細書において説明される手法は、図を、アクティブなタグを有するアイテムの上流及び下流のノードに単純に制限しない。その代わりに、タグのないノードも、図の中に残る。したがって、手法は、列挙型の組(an enumerated set)の望ましくないメンバーの上流又は下流にあるノードの極めて正確な削除を可能にする。有利なことに、この選択性は、単純なフィルタリング又は系統要約(例えば、データ若しくは過剰に詰め込まれたオブジェクト(overloaded object)の正規化/非正規化)によって解決され得ない問題を解決する能力を提供する。
データ処理システムの複雑さが増したので、データ系統図も次第に複雑になっており、単一のビューの中にそれぞれのアイコンによって表される多くのノード(例えば、集合的に「ノード」と呼ばれるデータノード及びデータ変換ノード)を提示する。データ系統図においてユーザに対して提示されるノードの数が増えるにつれて、データ系統図は理解するのが難しくなる可能性がある。
一部の例において、データ処理グラフは、多くの部分的に重なり合うデータ系統のパスを含み、概して、ユーザは、それらのデータ系統のパスのうちの数個に関心がある。例えば、データ処理グラフの上流の部分においては、例えば、地理的領域に基づいてデータを処理する多くの異なるシステムが存在する可能性がある。データ処理グラフの中間の部分においては、グラフの上流の部分からのデータが、グループ分けされ、グラフの下流の部分においては、グループ分けされたデータが、処理される。ユーザは、単一の地理的領域に関する系統のパスを分析することに関心がある可能性がある。
本明細書において説明される手法は、所与のデータ処理システム内で、互いに関連する特定のノードはユーザが見ることに関心がある同じノードであることが多いという認識を利用する。本明細書において説明される手法においては、互いに関連するノードの組が、系統タグを使用して関連付けられる。そのとき、ノードは、ユーザが見ることに関心のあるノードのみを含むフィルタリングされたデータ系統図をユーザが生じさせることを可能にするために、系統タグに基づいてフィルタリングされ得る。
本発明のその他の特徴及び利点は、以下の説明及び請求項から明らかになるであろう。
系統のフィルタリングの特徴を含むデータ処理システムのブロック図である。 系統タグを有するノードを含むデータ系統図である。 Region:USに関する第1のフィルタリングされたデータ系統図である。 フィルタリングアルゴリズムのブロック図である。 選択されたノード及びブラックリストに追加されたノードを有する図2aのデータ系統図である。 第1のデータ系統のパスがトラバースされる図2aのデータ系統図である。 第2のデータ系統のパスがトラバースされる図2aのデータ系統図である。 第3のデータ系統のパスがトラバースされる図2aのデータ系統図である。 第4のデータ系統のパスがトラバースされる図2aのデータ系統図である。 第5のデータ系統のパスがトラバースされる図2aのデータ系統図である。 第6のデータ系統のパスがトラバースされる図2aのデータ系統図である。 無関係なノードが除外される図2aのデータ系統図である。 Region:US,MEXに関する第2のフィルタリングされたデータ系統図である。 データ正規化及び非正規化を実行するように構成されたコンピュータプログラムのデータ系統図である。 いくつかのノードに関連する系統タグを含む図13のデータ系統図である。 ブラックリストに追加された特定のノードを有する図13のデータ系統図である。 系統タグに基づくフィルタリングのプロセス中の図13のデータ系統図である。 フィルタリングされたデータ系統図である。
図1は、系統タグに基づくデータ系統フィルタリング技術が使用され得るデータ処理システム10の例を示す。システム10は、ストレージデバイス、又はオンラインデータストリームへの接続などのデータの1又は2以上のソースを含み得るデータソース12を含み、それらの1又は2以上のソースのそれぞれは、さまざまなフォーマット(例えば、データベーステーブル(database tables)、スプレッドシートファイル(spreadsheet files)、フラットテキストファイル(flat text files)、又はメインフレーム(mainframe)によって使用されるネイティブフォーマット(native format))のいずれかでデータを記憶又は提供し得る。実行環境14は、実行モジュール13を含む。実行環境14は、例えば、UNIXオペレーティングシステムのバージョンなどの好適なオペレーティングシステムの制御下の1又は2以上の多目的コンピュータ上でホストされる可能性がある。例えば、実行環境14は、ローカルの(例えば、対称型マルチプロセッシング(SMP,symmetric multi-processing)コンピュータなどのマルチプロセッサシステム)又はローカルに分散された(例えば、クラスタ若しくは超並列処理(MPP,massively parallel processing)システムとして接続された複数のプロセッサか、或いは遠隔の又は遠隔に分散された(例えば、ローカルエリアネットワーク(LAN,local area network)及び/若しくは広域ネットワーク(WAN,wide-area network)を介して接続された複数のプロセッサ)か、或いはこれらの任意の組合せかのいずれかの複数の中央演算処理装置(CPU,central processing unit)或いはプロセッサコアを用いるコンピュータシステムの構成を含むマルチノード並列コンピューティング環境(multiple-node parallel computing environment)を含む可能性がある。
データソース12を提供するストレージデバイスは、実行環境14のローカルにあり、例えば、実行環境14をホストするコンピュータに接続されたストレージ媒体(例えば、ハードドライブ18)に記憶される可能性があり、又は実行環境14のリモートにあり、例えば、(例えば、クラウドコンピューティングインフラストラクチャによって提供される)リモート接続を介して実行環境14をホストするコンピュータと通信するリモートシステム(例えば、メインフレーム20)上でホストされる可能性がある。
システム10は、開発者30がデータ処理コンピュータプログラム27(例えば、データフローグラフ)を規定し、実行環境14によってアクセスされ得るデータストレージシステム26にプログラムを記憶することができる開発環境28を含む。実行モジュール13は、コンピュータプログラム27に従ってデータソースからのデータを処理して出力データ24を生じさせる。出力データ24は、データソース12若しくはデータストレージシステム26に戻して記憶されるか、又はそれ以外の方法で使用される可能性がある。開発環境28は、一部の実施形態において、(データ処理構成要素又はデータセットを表す)頂点間の(作業要素(work element)、すなわち、データのフローを表す)有向リンクによって接続された頂点を含むデータフローグラフとしてアプリケーションを開発するためのシステムである。例えば、そのような環境は、参照により本明細書に組み込まれる「Managing Parameters for Graph-Based Applications」(グラフに基づくアプリケーションのパラメータ管理)と題された米国特許出願公開第2007/0011668号明細書により詳細に説明されている。そのようなグラフに基づく計算を実行するためのシステムは、参照により本明細書に組み込まれる「EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS」(グラフとして表現される計算の実行)と題された米国特許第5,966,072号明細書に説明されている。このシステムによって作成されるデータフローグラフは、プロセス間で情報を移動するため及びプロセスに関する実行の順序を定義するためにグラフの構成要素によって表される個々のプロセスに情報を出し入れするための方法を提供する。このシステムは、任意の利用可能な方法からプロセス間通信の方法を選択するアルゴリズムを含む(例えば、グラフのリンクに従った通信系統のパスは、TCP/IP若しくはUNIXドメインソケットを使用するか、又はプロセス間でデータを渡すために共有メモリを使用する可能性がある)。
システム10は、ユーザ31(例えば、企業ユーザ又はデータ設計者)がデータ系統図を要求し、見ることができる企業環境29を含む。データ系統図を生じさせるために、企業環境29は、コンピュータプログラム27の異なる部分に対応する計算を表すデータ変換ノード(例えば、異なるデータフローグラフ又はデータフローグラフ内の異なる構成要素)を特徴付けるメタデータ(metadata)と、データ系統図を生じさせるためにコンピュータプログラム27によってアクセスされるか又は生じさせられるデータノード(例えば、データソース12からのデータセット又は出力データ24に対応するデータセット)を特徴付けるメタデータとを含むシステムメタデータを分析するデータ系統モジュール25を含む。
一部の例において、データ変換ノード及び/又はデータノードを特徴付けるメタデータは、(「系統タグ」と呼ばれることがある)データ系統タグを含む。極めて広く、各系統タグは、タグ識別子と、いくつかの可能なタグ値とを有する。例えば、1つの例示的な系統タグは、タグ識別子「Region」及び可能なタグ値「U.S.,U.K.,Mexico,Canada」を有する可能性がある。
コンピュータプログラム27のノード(すなわち、データ変換ノード及び/又はデータノード)の少なくとも一部は、1又は2以上の系統タグ及び系統タグの可能なタグ値のサブセットに関連付けられ、サブセットは、1又は2以上の系統タグの可能なタグ値のうちの少なくとも1つ且つ全数未満を含む。
図2aを参照すると、コンピュータプログラム27に関する例示的なエンドツーエンドのデータ系統図100は、いくつかのデータノード102、いくつかのデータ変換ノード104、及びいくつかのコンテナノード106を含み、これらのすべてのノードは、有向リンク108によって相互接続される。
特に、図100は、第1のデータ変換ノード110、第2のデータ変換ノード112、第3のデータ変換ノード114、第4のデータ変換ノード116、第5のデータ変換ノード118、第6のデータ変換ノード120、第7のデータ変換ノード122、第8のデータ変換ノード124、第9のデータ変換ノード126、第10のデータ変換ノード128、第11のデータ変換ノード130、第12のデータ変換ノード132、及び第13のデータ変換ノード134を含む。図100は、第1のデータノード136及び第2のデータノード138を含む。図100は、第1のコンテナノード140、第2のコンテナノード142、第3のコンテナノード144、及び第4のコンテナノード146を含む。
第1のデータ変換ノード110は、「Region」系統タグに関連付けられる。この例において、「Region」系統タグは、3つの可能なタグ値「US,CA,MEX」を有する。第1の変換ノード110は、「US」を含む「Region」系統タグの可能なタグ値のサブセットに関連付けられる。第3のデータ変換ノード114は、「Region」系統タグと、「MEX」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。第4のデータ変換ノード116は、「Region」系統タグと、「US」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。第5のデータ変換ノード118は、「Region」系統タグと、「CA」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。第6のデータ変換ノード120は、「Region」系統タグと、「US」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。
第7のデータ変換ノード122は、「Region」系統タグと、「CA」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。第8のデータ変換ノード124は、「Region」系統タグと、「MEX」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。第9のデータ変換ノード126は、「Region」系統タグと、「US」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。第13のデータ変換ノード134は、「Region」系統タグと、「CA」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。
第1のデータノード136は、「Region」系統タグと、「US,MEX」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。第2のデータノード138は、「Region」系統タグと、「CA」を含む「Region」系統タグの可能なタグ値のサブセットとに関連付けられる。
1 フィルタリングされたデータ系統の生成
一部の例において、図2aのエンドツーエンドのデータ系統図100は、フィルタリングされたデータ系統図を生じさせるためにデータ系統モジュール25によって処理される。図2bを参照すると、フィルタリングされたデータ系統図201の一例は、「Region」系統タグ及び「US」系統タグ値に従ってフィルタリングされるエンドツーエンドのデータ系統図100のバージョンである。図に見られるように、フィルタリングされたデータ系統図201は、「Region」系統タグ識別子に関連付けられ、「CA」のみ又は「MEX」のみを含む系統タグ値を有するノードがデータ系統から除外されるので図2aのエンドツーエンドのデータ系統図100に比べて大幅に簡素化される。
図3〜12を参照して以下で詳細に説明されるように、図12の第1のフィルタリングされたデータ系統図200などのフィルタリングされたデータ系統図に至るために、ユーザは、ノードを選択し、ノードに関するフィルタリングされたデータ系統を決定するようにデータ系統モジュール25に命令する。データ系統モジュール25は、まず、選択されたノードと1又は2以上のタグ識別子との間の関連付けを決定する。選択されたノードに関連する各タグ識別子に関して、データ系統モジュール25は、タグ識別子の可能なタグ値のうちのどのタグ値が選択されたノードに関連付けられるかを決定する。概して、ユーザは、選択されたノードに関連付けられるべき任意の数のタグ値を選択し得る。選択されたタグ値は、単一のタグ値(例えば、図2bの例と同様に「US」)又は複数のタグ値(例えば、図12の例と同様に「US」及び「MEX」)などの可能なタグ値のサブセットを表す可能性がある。概して、タグ識別子に関連する可能なタグ値の全数未満の一部のある数のタグ値が、選択される。
それから、データ系統モジュール25は、選択されたノードから始まる1又は2以上の系統のパスをトラバースして、選択されたノードに関するフィルタリングされたデータ系統を決定する。概して、それぞれの系統のパスは、有向リンクによって接続された1又は2以上のノードを含む。データ系統モジュール25は、1又は2以上のノードをトラバースするとき、1又は2以上のトラバースされるノードに関連するすべてのタグ識別子又はタグ値に基づいて、フィルタリングされたデータ系統にノードを追加すべきか又はフィルタリングされたデータ系統からノードを除外すべきかを判断する。
図3を参照すると、一部の例において、データ系統モジュール25が系統のパスをトラバースするとき、系統のパスに沿ったノードがフィルタリングされたデータ系統図に含めるためにマークされる(marked)べきか又はフィルタリングされたデータ系統図から除外するためにマークされるべきかを決定するためにフィルタリングアルゴリズム300が使用される。
特に、データ系統モジュール25が系統のパス上の訪問先ノード350に至るとき、訪問先ノード350及び選択されたノード352が、フィルタリングアルゴリズム300に与えられる。
フィルタリングアルゴリズム300の第1のステップ354において、訪問先ノード350に関連するいずれかの系統タグ識別子が選択されたノード352に関連する系統タグ識別子に一致するかどうかを決定するためのテストが実施される。系統タグ識別子のいずれも一致しない場合、アルゴリズムは、第2のステップ356に進み、第2のステップ356において、訪問先ノード350は、フィルタリングされたデータ系統図に含めるためにマークされる。訪問先ノード350と選択されたノード352との両方に関連する1又は2以上の系統タグ識別子が一致する場合、アルゴリズムは、第3のステップ358に進む。
第3のステップ358において、それぞれの特定された一致する系統タグ識別子に関して、系統タグ識別子に関する訪問先ノード350に関連する1又は2以上の系統タグ値が、系統タグ識別子に関する選択されたノード352に関連する1又は2以上の系統タグ値に一致するかどうかを決定するためのテストが実施される。系統タグ識別子に関する訪問先ノード350に関連する1又は2以上の系統タグ値が系統タグ識別子に関する選択されたノード352に関連する1又は2以上の系統タグ値に一致する場合、アルゴリズムは、第2のステップ356に進み、第2のステップ356において、訪問先ノード350は、フィルタリングされたデータ系統図に含めるためにマークされる。
或いは、系統タグ識別子に関する訪問先ノード350に関連する系統タグ値のうちのいずれも系統タグ識別子に関する選択されたノード352に関連する系統タグ値のうちのいずれとも一致しない場合、アルゴリズムは、第4のステップ360に進み、第4のステップ360において、訪問先ノード350は、フィルタリングされたデータ系統図から除外するためにマークされる。
一部の例において、フィルタリングアルゴリズム400は、データ系統モジュール25がエンドツーエンドのデータ系統内の系統のパスをトラバースするときに実施される。その他の例においては、ノードがデータ系統の計算のために選択されると、いずれの系統のパスがトラバースされるよりも前に、選択されたノード以外のエンドツーエンドのデータ系統内のすべてのノードにフィルタリングアルゴリズムが適用される。フィルタリングアルゴリズム300がフィルタリングされたデータ系統図から除外するためにマークするすべてのノードは、「ブラックリスト」に追加される。それから、データ系統モジュール25は、選択されたノードから始まる系統のパスをトラバースする。データ系統モジュール25によって訪問される各ノードにおいて、データ系統モジュール25は、ブラックリストを検索して、訪問先ノードがブラックリストに載っているかどうかを決定する。訪問先ノードがブラックリストに載っている場合、系統のパスのトラバーサル(traversal)は、終了され、訪問先ノードは、フィルタリングされたデータ系統に含められない。
図4を参照すると、ユーザは、フィルタリングされたデータ系統の生成のために図2aのエンドツーエンドのデータ系統図100の第1のデータノード136を選択済みである。上述のように、第1のデータノード136は、「Region」系統タグ識別子に関連付けられ、「US,MEX」を含み、系統タグ値「CA」を含まない「Region」系統タグ識別子の可能なタグ値のサブセットに関連付けられる。
「Region」系統タグ識別子の「CA」系統タグ値は第1のデータノード136に関連する系統タグ値のサブセットに含まれないので、データ系統モジュール25は、「Region」系統タグ識別子に関連付けられ、且つ「CA」のみを含むタグ値のサブセットを有するノードをデータ系統から除外するように構成される。
一部の例においては、第1のデータノード136の選択を受け取った後、データ系統モジュール25は、エンドツーエンドのデータ系統図100を処理して、ブラックリストを生じさせる。上述のように、ブラックリストは、第1のデータノード136以外のすべてのノードを調べて、「Region」系統タグ識別子に関連し、「CA」のみを含むタグ値のサブセットを有するノードを特定することによって生じさせられる。図4のエンドツーエンドのデータ系統にフィルタリングアルゴリズム300を適用することは、第5のデータ変換ノード118、第7のデータ変換ノード122、第13のデータ変換ノード134、及び第2のデータノード138がブラックリストに追加される結果をもたらす。図4において、ブラックリストに追加されるノードは、斜線のパターンによって塗りつぶされる。
ブラックリストが生じさせられると、第1のデータノード136から始まる系統のパス(つまり、有向リンク108によって接続されたノード)のそれぞれは、エンドツーエンドの系統図100の端のノードが訪問されるか、又はブラックリストのノードが訪問されるかのどちらかまでトラバースされる。エンドツーエンドのデータ系統図100の端のノードが到達される場合、ノードにつながり、ノードを含む系統のパス全体が、フィルタリングされたデータ系統に含められる。ブラックリストのノードが到達される場合、系統のパスのトラバーサルが、終了され、ブラックリストのノードにつながっているがそのノードを含まない系統のパスが、フィルタリングされたデータ系統に含められる。
図5を参照すると、第1のデータノード136と第9のデータ変換ノード126との間の第1の系統のパスが、データ系統モジュール25によってトラバースされる。第1のデータノード136がユーザによって選択されたので、第1のデータノード136は、デフォルトでフィルタリングされたデータ系統に含めるためにマークされる。そして、第1のデータノード136と第10のデータ変換ノード128との間の有向リンク108が、トラバースされる。それから、ブラックリストが第10のデータ変換ノード128を含むかどうかを決定するために、ブラックリストが検索される。第10のデータ変換ノード128は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。それから、第10のデータ変換ノード128と第9のデータ変換ノード126との間の有向リンク108が、トラバースされる。そして、ブラックリストが第9のデータ変換ノード126を含むかどうかを決定するために、ブラックリストが検索される。第9のデータ変換ノード126は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。第9のデータ変換ノード126はエンドツーエンドの系統図100の端にあるので、第1の系統のパスのトラバーサルは完了している。
図6を参照すると、第1のデータノード136と第1のデータ変換ノード110との間に延びる第2の系統のパスが、データ系統モジュール25によってトラバースされる。第1のデータノード136と第10のデータ変換ノード128との間の有向リンク108は既にトラバースされたので、データ系統モジュール25は、第10のデータ変換ノード128と第4のデータ変換ノード116との間の有向リンク108をトラバースすることによってそのデータ系統モジュール25のトラバーサルを始める。
系統モジュール25が第4のデータ変換ノード116に到達するとき、ブラックリストが第4のデータ変換ノード116を含むかどうかを決定するために、ブラックリストが検索される。第4のデータ変換ノード116は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。第4のデータ変換ノード116は、第1のコンテナノード140に入れ子にされる第2のコンテナノード142に含まれることに留意されたい。第1のコンテナノード140も第2のコンテナノード142も、いかなる系統タグ識別子にも関連付けられず、したがって、どちらも、ブラックリストに含まれない。第2の系統のパスは第1のコンテナノード140及び第2のコンテナノード142の境界をトラバースし、どちらのコンテナノードもブラックリスト内にないので、第1のコンテナノード140と第2のコンテナノード142との両方が、フィルタリングされたデータ系統に含めるためにマークされる。一部の例において、コンテナノードが系統タグ識別子及び値によってマークされる場合、そのコンテナノードの子孫ノード(すなわち、子ノード及びそのまた子)のすべては、同じ系統タグ識別子及び値によってマークされることに留意されたい。したがって、ブラックリストは、最も低いレベルのノードに基づいて構築される可能性がある。
それから、データ系統モジュール25は、第4のデータ変換ノード116と第1のデータ変換ノード110との間の有向リンク108をトラバースする。系統モジュール25が第1のデータ変換ノード110に到達するとき、ブラックリストが第1のデータ変換ノード110を含むかどうかを決定するために、ブラックリストが検索される。第1のデータ変換ノード110は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。第1のデータ変換ノード110はエンドツーエンドの系統図100の端にあるので、第2の系統のパスのトラバーサルは完了している。
図7を参照すると、第1のデータノード136と第1のデータ変換ノード110との間に延びる第3の系統のパスが、データ系統モジュール25によってトラバースされる。やはり、第1のデータノード136と第10のデータ変換ノード128との間の有向リンク108は既にトラバースされたので、データ系統モジュール25は、第10のデータ変換ノード128と第6のデータ変換ノード120との間の有向リンク108をトラバースすることによってそのデータ系統モジュール25のトラバーサルを始める。
系統モジュール25が第6のデータ変換ノード120に到達するとき、ブラックリストが第6のデータ変換ノード120を含むかどうかを決定するために、ブラックリストが検索される。第6のデータ変換ノード120は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。第6のデータ変換ノード120は、第1のコンテナノード140に入れ子にされる第3のコンテナノード144に含まれることに留意されたい。第1のコンテナノード140も第3のコンテナノード144も、いかなる系統タグ識別子にも関連付けられず、したがって、どちらも、ブラックリストに含まれない。第2の系統のパスは第1のコンテナノード140及び第3のコンテナノード144の境界をトラバースし、どちらのコンテナノードもブラックリスト内にないので、第1のコンテナノード140と第3のコンテナノード144との両方が、フィルタリングされたデータ系統に含めるためにマークされる。
それから、データ系統モジュール25は、第6のデータ変換ノード120と第1のデータ変換ノード110との間の有向リンク108をトラバースする。系統モジュール25が第1のデータ変換ノード110に到達するとき、ブラックリストが第1のデータ変換ノード110を含むかどうかを決定するために、ブラックリストが検索される。第1のデータ変換ノード110は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。第1のデータ変換ノード110は系統図100の端にあるので、第3の系統のパスのトラバーサルは完了している。
図8を参照すると、第1のデータノード136と第2のデータ変換ノード112との間に延びる第4の系統のパスが、データ系統モジュール25によってトラバースされる。第1のデータノード136と第10のデータ変換ノード128との間の有向リンク108は既にトラバースされたので、データ系統モジュール25は、第10のデータ変換ノード128と第5のデータ変換ノード118との間の有向リンク108をトラバースすることによってそのデータ系統モジュール25の横断を始める。
系統モジュール25が第5のデータ変換ノード118に到達するとき、ブラックリストが第5のデータ変換ノード118を含むかどうかを決定するために、ブラックリストが検索される。第5のデータ変換ノード118は、ブラックリストに載っているので、フィルタリングされたデータ系統から除外される。第5のデータ変換ノード118がブラックリストに載っていると決定されたので、第4の系統のパスのトラバーサルが、終了される。
図9を参照すると、第1のデータノード136と第3のデータ変換ノード114との間に延びる第5の系統のパスが、データ系統モジュール25によってトラバースされる。第1のデータノード136と第10のデータ変換ノード128との間の有向リンク108は既にトラバースされたので、データ系統モジュール25は、第10のデータ変換ノード128と第8のデータ変換ノード124との間の有向リンク108をトラバースすることによってそのデータ系統モジュール25のトラバーサルを始める。
系統モジュール25が第8のデータ変換ノード124に到達するとき、ブラックリストが第8のデータ変換ノード124を含むかどうかを決定するために、ブラックリストが検索される。第8のデータ変換ノード124は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。第8のデータ変換ノード124は、第1のコンテナノード140に入れ子にされる第4のコンテナノード146に含まれることに留意されたい。第1のコンテナノード140及び第4のコンテナノード146のどちらも、いかなる系統タグ識別子にも関連付けられず、したがって、どちらも、ブラックリストに含まれない。第5の系統のパスは第1のコンテナノード140及び第4のコンテナノード146の境界をトラバースし、どちらのコンテナノードもブラックリスト内にないので、第1のコンテナノード140と第4のコンテナノード146との両方が、フィルタリングされたデータ系統に含めるためにマークされる。
それから、データ系統モジュール25は、第8のデータ変換ノード124と第3のデータ変換ノード114との間の有向リンクをトラバースする。系統モジュール25が第3のデータ変換ノード114に到達するとき、ブラックリストが第3のデータ変換ノード114を含むかどうかを決定するために、ブラックリストが検索される。第3のデータ変換ノード114は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。第3のデータ変換ノード114は系統図100の端にあるので、第5の系統のパスのトラバーサルは完了している。
図10を参照すると、第1のデータノード136と第2のデータ変換ノード112との間に延びる第6の系統のパスが、データ系統モジュール25によってトラバースされる。第1のデータノード136と第10のデータ変換ノード128との間の有向リンク108は既にトラバースされたので、データ系統モジュール25は、第10のデータ変換ノード128と第11のデータ変換ノード130との間の有向リンク108をトラバースすることによってそのデータ系統モジュール25のトラバーサルを始める。
系統モジュール25が第11のデータ変換ノード130に到達するとき、ブラックリストが第11のデータ変換ノード130を含むかどうかを決定するために、ブラックリストが検索される。第11のデータ変換ノード130は、ブラックリストに載っていないので、フィルタリングされたデータ系統に含めるためにマークされる。
それから、データ系統モジュール25は、第11のデータ変換ノード130と第7のデータ変換ノード122との間の有向リンクをトラバースする。系統モジュール25が第7のデータ変換ノード122に到達するとき、ブラックリストが第7のデータ変換ノード122を含むかどうかを決定するために、ブラックリストが検索される。第7のデータ変換ノード122は、ブラックリストに載っているので、フィルタリングされたデータ系統から除外される。第7のデータ変換ノード122がブラックリストに載っていると決定されたので、第6の系統のパスのトラバーサルが、終了される。
図11を参照すると、第12のデータ変換構成要素132、第13のデータ変換構成要素134、及び第2のデータノード138は、第1のデータノード136から始まる系統のパス上にないので、デフォルトでフィルタリングされたデータ系統から除外される。
第2のデータ変換ノード112は、有向リンクのいずれのトラバーサル中にも到達されず、したがって、フィルタリングされたデータ系統から除外されることに留意されたい。
図12を参照すると、第1のデータノード136から始まるすべての系統のパスがトラバースされると、フィルタリングされたデータ系統に含めるためにマークされていないすべてのノードが、エンドツーエンドのデータ系統図100から削除され、フィルタリングされたデータ系統図200をもたらす。フィルタリングされたデータ系統図200は、「Region」系統タグ識別子に関連し、「CA」のみを含む系統タグ値を有するノードを除外することに留意されたい。
2 正規化/非正規化
図13を参照すると、コンピュータプログラム27の単純で例示的なエンドツーエンドのデータ系統図1300が、入力フォーム1360、正規化データ変換ノード1362、データノード1364、非正規化データ変換ノード1366、及びレポートフォーム1368を含む。入力フォーム1360及びレポートフォーム1368は、より高いレベルのデータ要素内に入れ子にされた異なるデータ要素に対応する複数のデータノードをそれぞれがそれ自体の中に含むデータノードである。この例において、入れ子にされたデータ要素は、各フォームのレコード内の異なるフィールドを表す。
正規化データ変換ノード1362は、データノード1354によって表されるデータストアに記憶されているデータ要素を正規化する正規化動作を実施し、非正規化データ変換ノード1366は、データノード1354によって表されるデータストアから取り出されているデータ要素を非正規化する非正規化動作を実施する。正規化動作の「正規化」及び非正規化動作の「非正規化」の特定の実施形態は、変わり得るが、概して、以下の特徴を有する。データ要素を正規化することは、複数のデータ要素に対応するレコードを少なくとも1つのフィールドに関して共通のフォーマットを有する複数のレコードに変換することを含む。データ要素を非正規化することは、少なくとも1つのフィールドに関して共通のフォーマットを有する複数のレコードを複数のデータ要素に対応する単一のレコードに変換することを含む。以下は、データ系統図1300に関連するそのような動作の例である。
入力フォーム1360は、モバイル電話番号を含む第1のフィールド1370、職場の電話番号を含む第2のフィールド1372、及び家庭の電話番号を含む第3のフィールド1374を含む。動作中、正規化データ変換ノード1362は、入力フォーム1360を受け取り、入力フォーム1360に含まれる電話番号をデータノード1364に記憶するのに好適な正規化された形態に変換する。一部の例において、正規化データ変換ノード1362は、入力フォーム1360に含まれる電話番号を[Phone Number Type,Phone Number]の形態に変換し、Phone Numberは、3つの値、すなわち、Mobile、Work、及びHomeを有する列挙データタイプである。本明細書に記載の態様に関連して、データ要素タイプ及びデータ要素値を有するデータ要素をデータ要素タイプフィールド及びデータ要素値フィールドを含むデータ構造に変換する上述のプロセスが、データ要素の「正規化」と呼ばれる。正規化された電話番号は、後で使用するためにデータノード1364に記憶される。
非正規化データ変換ノード1366は、データノード1364から正規化された電話番号を読み、正規化された電話番号を非正規化してそれらの電話番号の元の形態に戻す。本明細書に記載の態様に関連して、正規化されたデータ構造をデータ要素タイプ及びデータ要素値を有するデータ要素に変換して戻す上述のプロセスが、データ要素の「非正規化」と呼ばれる。そして、非正規化データ変換ノード1366は、モバイル電話番号を、モバイル電話番号を記憶するためのレポートフォーム1368の第4のフィールド1376、職場の電話番号を記憶するためのレポートフォーム1368の第5のフィールド1378、及び家庭の電話番号を記憶するためのレポートフォーム1368の第6のフィールド1380に書き込む。
上述の正規化/非正規化プロセスは、正規化された列挙データタイプへのデータアイテムの変換及び正規化された列挙データタイプからのデータアイテムの変換が原因で、通常のデータ系統計算システムを扱うことが難しい可能性がある。例えば、ユーザがレポートフォーム1368の第4のフィールド1376のモバイル電話番号に関するデータ系統図を必要とする場合、通常の方法で生じさせられたデータ系統図は、レポートフォーム1368の第4のフィールド1376のモバイル電話番号、非正規化データ変換ノード1366、データノード1364、正規化データ変換ノード1362、及び入力フォーム1368の第1のフィールド1370を含む。
通常の方法で生じさせられたデータ系統図は、入力フォーム1360の第2のフィールド1372の職場の電話番号及び入力フォーム1360の第3のフィールド1374の家庭の電話番号も含む。そのような通常のデータ系統図は、第2のフィールド1372の職場の電話番号及び第3のフィールド1374の家庭の電話番号が実際にはレポートフォーム1368の第4のフィールド1376のモバイル電話番号に関するデータ系統の一部ではないので正しくない。
図14を参照すると、正しくないデータ系統図の生成を防止するために、エンドツーエンドのデータ系統図1300内の(基本的にデータノードである)さまざまなフィールドが、系統タグ識別子「Phone Num」及び可能な系統タグ値「Mobile」、「Work」、及び「Home」を有する系統タグによってタグ付けされる(tagged)。特に、第1のフィールド1370は、「Phone Num」系統タグ識別子及び「Mobile」だけを含む可能な系統タグ値のサブセットを有する系統タグによってタグ付けされる。第2のフィールド1372は、「Phone Num」系統タグ識別子及び「Work」だけを含む可能な系統タグ値のサブセットを有する系統タグによってタグ付けされる。第3のフィールド1374は、「Phone Num」系統タグ識別子及び「Home」だけを含む可能な系統タグ値のサブセットを有する系統タグによってタグ付けされる。
第4のフィールド1376は、「Phone Num」系統タグ識別子及び「Mobile」だけを含む可能な系統タグ値のサブセットを有する系統タグによってタグ付けされる。第5のフィールド1378は、「Phone Num」系統タグ識別子及び「Work」だけを含む可能な系統タグ値のサブセットを有する系統タグによってタグ付けされる。第6のフィールド1380は、「Phone Num」系統タグ識別子及び「Home」だけを含む可能な系統タグ値のサブセットを有する系統タグによってタグ付けされる。
図15を参照すると、ユーザがフィルタリングされたデータ系統図の生成のためにモバイル電話番号を含む第4のフィールド1376を選択するとき、データ系統モジュール25は、まず、第4のフィールド1376と1又は2以上の系統タグ識別子との間の関連付けを決定する。この場合、第4のフィールド1376は、「Phone Num」系統タグ識別子に関連付けられる。それから、データ系統モジュール25は、「Phone Num」タグ識別子の可能なタグ値のうちのどのタグ値が第4のフィールド1376に関連付けられるかを決定する。この場合、「Mobile」タグ値は、第4のフィールド1376に関連する唯一のタグ値である。
そして、データ系統モジュール25は、エンドツーエンドのデータ系統図1300を処理して、ブラックリストを生じさせる。上述のように、ブラックリストは、選択された第4のフィールド1376以外のエンドツーエンドのデータ系統図1300内のすべてのノード及びフィールドを調べて、「Phone Num」系統タグ識別子に関連し、「Work」及び/又は「Home」だけを含むタグ値のサブセットを有するノード及びフィールドを特定することによって生じさせられる。エンドツーエンドのデータ系統図1300に図3のフィルタリングアルゴリズム300を適用することは、第2のフィールド1372、第3のフィールド1374、第5のフィールド1378、及び第6のフィールド1380がブラックリストに追加される結果をもたらす。図15において、ブラックリストに追加されるデータ系統のフィールドは、斜線のパターンによって塗りつぶされる。
図16を参照すると、データ系統モジュール25は、そのとき、第4のフィールド1376から始まるすべての系統のパスをトラバースして、どのノード及びフィールドがフィルタリングされたデータ系統に含められ、フィルタリングされたデータ系統から除外されるのかを決定する。図に見られるように、「Work」及び「Home」系統タグ値のみによってタグ付けされたフィールドは、データ系統モジュール25によってフィルタリングされたデータ系統から除外するためにマークされ、一方、「Mobile」系統タグ値のみによってタグ付けされたフィールドは、フィルタリングされたデータ系統に含めるためにマークされる。
図17を参照すると、第4のフィールド1376から始まるすべての系統のパスがトラバースされると、フィルタリングされたデータ系統に含めるためにマークされていないすべてのノード及びフィールドが、エンドツーエンドのデータ系統図1300から削除され、フィルタリングされたデータ系統図1700をもたらす。通常の系統生成技術によってフィルタリングされたデータ系統図に誤って含められる第2のフィールド1372及び第3のフィールド1374が、フィルタリングされたデータ系統図1700からは除外されることに留意されたい。
3 代替形態
上の系統タグに基づくフィルタリングの例のデータ系統図のノードは特定の順序でトラバースされるが、トラバーサルの多くの異なる順序が使用され得ることに留意すべきである。例えば、トラバーサルの幅優先順序又はトラバーサルの深さ優先順序が、使用され得る。
上の系統タグに基づくフィルタリングの例においては、最初のノードが選択され、最初のノードに関連する系統タグ及び系統タグ値が系統図をフィルタリングするために使用される。しかし、一部の例においては、ユーザが、最初のノードを選択し、データ系統モジュールが、データ系統図をトラバースして、最初のノードに関する完全なデータ系統を決定し、完全なデータ系統をフィルタリングするために使用され得るすべての系統タグ及び系統タグ値を発見する。そして、最初のノードに関する完全なデータ系統が、発見された系統タグ及び系統タグ値と一緒にユーザに提示される。それから、ユーザは、発見された1又は2以上の系統タグ及び系統タグ値をフィルタリングパラメータとして選択することによって完全なデータ系統をフィルタリングすることができる。その他の例においては、データ系統モジュールがデータ系統図をトラバースするとき、到達された系統タグ及び系統タグ値のリストが、保守される。そして、図の第1の部分をトラバースする間にリストに追加される系統タグ及び系統タグ値の一部又はすべてが、図の第2の部分をフィルタリングするために、図の第2の上流部分をトラバースする間に使用される可能性がある。
上述の手法は、概してデータ系統図の生成に関するが、インパクト分析図を生じさせるためにも使用され得る。
一部の例においては、系統の階層内の異なるレベルの2又は3以上のノード(例えば、コンテナノード及びコンテナノード内のデータ変換ノード)に関連する系統タグが、衝突する可能性がある。一部の例においては、系統の階層内の最も低いレベルのノードが、系統タグとして選択される。
上述の例においては、データ変換ノードが、矢印によって表されるフローによって互いに直接接続されるものとして示されている。しかし、一部の例においては、第1の構成要素の出力を第2の構成要素の入力に接続するフローが、第1の構成要素から出るデータによって書き込まれ、第2の構成要素の入力によって読まれるデータストレージ要素を暗黙的に含む可能性があることに留意すべきである。
4 実施形態
上述のデータ系統生成手法は、好適なソフトウェアを実行するコンピューティングシステムを用いて履行され得る。例えば、ソフトウェアは、それぞれが少なくとも1つのプロセッサ、(揮発性及び/又は不揮発性メモリ及び/又はストレージ要素を含む)少なくとも1つのデータストレージシステム、(少なくとも1つの入力デバイス又はポートを用いて入力を受け取るため、及び少なくとも1つの出力デバイス又はポートを用いて出力を与えるための)少なくとも1つのユーザインターフェースを含む(分散、クライアント/サーバ、又はグリッドなどのさまざまなアーキテクチャである可能性がある)1又は2以上のプログラミングされた又はプログラミング可能なコンピューティングシステム上で実行される1又は2以上のコンピュータプログラムのプロシージャを含み得る。ソフトウェアは、例えば、データフローグラフの設計、構成、及び実行に関連するサービスを提供するより大きなプログラムの1又は2以上のモジュールを含む可能性がある。プログラムのモジュール(例えば、データフローグラフの要素)は、データリポジトリに記憶されたデータモデルに準拠するデータ構造又はその他の編成されたデータとして履行され得る。
ソフトウェアは、CD−ROM又は(例えば、多目的若しくは専用のコンピューティングシステム若しくはデバイスによって読み取り可能な)その他のコンピュータ可読媒体などの有形の非一時的媒体上に提供されるか、或いはそのソフトウェアが実行されるコンピューティングシステムの有形の非一時的媒体にネットワークの通信媒体を介して配信される(例えば、伝搬信号に符号化される)可能性がある。処理の一部又はすべては、専用のコンピュータ上で、又はコプロセッサ若しくはフィールドプログラマブルゲートアレイ(FPGA,field-programmable gate array)若しくは専用の特定用途向け集積回路(ASIC,application-specific integrated circuit)などの専用のハードウェアを使用して実施される可能性がある。処理は、ソフトウェアによって規定された計算の異なる部分が異なるコンピューティング要素によって実施される分散された方法で履行される可能性がある。それぞれのそのようなコンピュータプログラムは、本明細書において説明された処理を実施するためにストレージデバイスの媒体がコンピュータによって読み取られるときにコンピュータを構成し、動作させるために、多目的又は専用のプログラミング可能なコンピュータによってアクセスされ得るストレージデバイスのコンピュータ可読ストレージ媒体(例えば、ソリッドステートメモリ若しくは媒体、又は磁気式若しくは光学式媒体)に記憶されるか又はダウンロードされることが好ましい。本発明のシステムは、コンピュータプログラムで構成された有形の非一時的媒体として履行されると考えられる可能性もあり、そのように構成された媒体は、本明細書において説明された1又は2以上処理ステップを実施するために特定の予め定義された方法でコンピュータを動作させる。
本発明のいくつかの実施形態が、説明された。しかしながら、上述の説明は、添付の請求項の範囲によって画定される本発明の範囲を例示するように意図されており、限定するように意図されていないことを理解されたい。したがって、その他の実施形態も、添付の請求項の範囲内にある。例えば、本発明の範囲を逸脱することなくさまざまな修正がなされ得る。さらに、上述のステップの一部は、順序に依存しない可能性があり、したがって、説明された順序とは異なる順序で実施される可能性がある。

Claims (18)

  1. コンピューティングシステムにおいて系統情報を管理するための方法であって、
    前記方法は、前記コンピューティングシステムのプロセッサによって実施され、
    複数のノードと、前記複数のノードの間のそれぞれの系統の関係を表す有向リンクとを含む有向グラフの仕様をデータストレージシステムに記憶するステップであって、前記ノードの少なくとも一部が、複数のタグ識別子のうちの1又は2以上のタグ識別子に関連付けられ、前記複数のタグ識別子のうちの少なくとも1つのタグ識別子が、複数の可能なタグ値を有する、前記記憶するステップと、
    前記複数のノードのうちの第1のノードに関するデータ系統の表現を求める要求を少なくとも1つのプロセッサを使用して処理するステップであって、
    前記第1のノードと前記複数のタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、前記第1のタグ識別子の複数の可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセットを決定することと、
    前記第1のノードに関するデータ系統を決定するために、前記第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースすることであって、前記データ系統が、(1)前記第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)前記第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含み、前記データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的に前記トラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、前記データ系統に前記トラバースされるノードを追加すべきか又は前記データ系統から前記トラバースされるノードを除外すべきかを決定することを含む、前記トラバースすることとを含む、前記処理するステップを含む、前記方法。
  2. データ系統を決定することが、それぞれのトラバースされるノードに関して、
    前記トラバースされるノードが第1のタグ識別子に関連付けられないか、若しくは前記トラバースされるノードが前記第1のタグ識別子に関連付けられ、第1のサブセットの少なくとも1つのタグ値に関連付けられる場合に前記データ系統に前記トラバースされるノードを追加すること、又は
    前記トラバースされるノードが前記第1のタグ識別子に関連付けられ、前記第1のタグ識別子の複数の可能なタグ値の前記第1のサブセットの少なくとも1つのタグ値に関連付けられない場合に前記データ系統から前記トラバースされるノードを除外することを含む、請求項1に記載の方法。
  3. データ系統からトラバースされるノードを除外すると、第1の系統のパスのトラバースを終了するステップをさらに含む、請求項2に記載の方法。
  4. 第1のタグ識別子に関連付けられ、前記第1のタグ識別子の複数の可能なタグ値の第1のサブセットの少なくとも1つのタグ値に関連付けられない複数のノードの第1のサブセットを決定するために、前記複数のノードのうちのノードをトラバースする前に前記複数のノードを分析するステップをさらに含む、請求項1に記載の方法。
  5. データ系統にトラバースされるノードを追加すべきか又は前記データ系統から前記トラバースされるノードを除外すべきかを決定することが、前記トラバースされるノードが複数のノードの第1のサブセットに含まれるかどうかを決定することを含む、請求項4に記載の方法。
  6. データ系統にトラバースされるノードを追加すべきかどうかを決定することが、前記トラバースされるノードが複数のノードの第1のサブセットに含まれない場合に前記データ系統に前記トラバースされるノードを追加し、前記トラバースされるノードが前記複数のノードの前記第1のサブセットに含まれる場合に前記データ系統から前記トラバースされるノードを除外することを含む、請求項5に記載の方法。
  7. 複数のノードの少なくとも一部のノードが、前記複数のノードのその他のノードの中に入れ子にされる、請求項1に記載の方法。
  8. ノードの入れ子にされた階層のより低いレベルのノードに関連するタグ識別子及びタグ値の前記タグ識別子に関連するサブセットが、ノードの前記入れ子にされた階層のより高いレベルのノードに関連するタグ識別子及びタグ値の前記タグ識別子に関連するサブセットを上回る優先度を与えられる、請求項7に記載の方法。
  9. 第1の系統のパスに沿ってノードをトラバースすることが、第1のノードから始まる前記ノードを有向リンクの方向と反対の方向にトラバースすることを含む、請求項1に記載の方法。
  10. 有向グラフの仕様を生じさせるステップであって、複数のノードのうちの1又は2以上が計算を表し、前記複数のノードのうちの1又は2以上が計算の実行中に受け取られるか又は計算によって生成されるデータ要素を表し、有向リンクが計算とデータ要素との間の系統の関係を表す、前記ステップをさらに含む、請求項1に記載の方法。
  11. 複数のノードのうちの1又は2以上が、前記複数のノードのうちの1又は2以上のその他のノードのグループ分けを表す、請求項10に記載の方法。
  12. 第1のタグ識別子の複数の可能なタグ値の第1のサブセットが、第1のノードに関連付けられる1又は2以上のタグ値からなる、請求項1に記載の方法。
  13. 第1のタグ識別子の複数の可能なタグ値の第1のサブセットが、ユーザ入力から受け取られる1又は2以上のタグ値からなる、請求項1に記載の方法。
  14. 第1のノードに関するデータ系統を決定するために前記第1のノードから有向リンクの複数の系統のパスに沿ってノードをトラバースするステップであって、前記データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的に前記トラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、前記データ系統に前記トラバースされるノードを追加すべきか又は前記データ系統から前記トラバースされるノードを除外すべきかを決定することを含む、前記ステップをさらに含む、請求項1に記載の方法。
  15. デフォルトでデータ系統に第1のノードを追加するステップをさらに含む、請求項1に記載の方法。
  16. コンピュータ可読媒体に記憶された、コンピューティングシステムにおいて系統情報を管理するためのプログラムであって、コンピューティングシステムに、
    複数のノードと、前記複数のノードの間のそれぞれの系統の関係を表す有向リンクとを含む有向グラフの仕様をデータストレージシステムに記憶することであって、前記ノードの少なくとも一部が、複数のタグ識別子のうちの1又は2以上のタグ識別子に関連付けられ、前記複数のタグ識別子のうちの少なくとも1つのタグ識別子が、複数の可能なタグ値を有する、前記記憶することと、
    前記複数のノードのうちの第1のノードに関するデータ系統の表現を求める要求を少なくとも1つのプロセッサを使用して処理することであって、
    前記第1のノードと前記複数のタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、前記第1のタグ識別子の複数の可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセットを決定すること、並びに
    前記第1のノードに関するデータ系統を決定するために、前記第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースすることであって、前記データ系統が、(1)前記第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)前記第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含み、前記データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的に前記トラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、前記データ系統に前記トラバースされるノードを追加すべきか又は前記データ系統から前記トラバースされるノードを除外すべきかを決定することを含む、前記トラバースすることを含む、前記処理することとを行わせるための命令を含む、前記プログラム
  17. 系統情報を管理するためのコンピューティングシステムであって、
    複数のノードと、前記複数のノードの間のそれぞれの系統の関係を表す有向リンクとを含む有向グラフの仕様を記憶するデータストレージシステムであって、前記ノードの少なくとも一部が、複数のタグ識別子のうちの1又は2以上のタグ識別子に関連付けられ、前記複数のタグ識別子のうちの少なくとも1つのタグ識別子が、複数の可能なタグ値を有する、前記データストレージシステムと、
    前記複数のノードのうちの第1のノードに関するデータ系統の表現を求める要求を処理するように構成された少なくとも1つのプロセッサであって、前記処理することが、
    前記第1のノードと前記複数のタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、前記第1のタグ識別子の複数の可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセットを決定すること、並びに
    前記第1のノードに関するデータ系統を決定するために、前記第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースすることであって、前記データ系統が、(1)前記第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)前記第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含み、前記データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的に前記トラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、前記データ系統に前記トラバースされるノードを追加すべきか又は前記データ系統から前記トラバースされるノードを除外すべきかを決定することを含む、前記トラバースすることを含む、前記プロセッサとを含む、前記コンピューティングシステム。
  18. 系統情報を管理するためのコンピューティングシステムであって、
    複数のノードと、前記複数のノードの間のそれぞれの系統の関係を表す有向リンクとを含む有向グラフの仕様を記憶するための手段であって、前記ノードの少なくとも一部が、複数のタグ識別子のうちの1又は2以上のタグ識別子に関連付けられ、前記複数のタグ識別子のうちの少なくとも1つのタグ識別子が、複数の可能なタグ値を有する、前記記憶するための手段と、
    前記複数のノードのうちの第1のノードに関するデータ系統の表現を求める要求を処理するための手段であって、前記処理することが、
    前記第1のノードと前記複数のタグ識別子のうちの少なくとも第1のタグ識別子との間の関連付けを決定し、前記第1のタグ識別子の複数の可能なタグ値のうちの少なくとも1つ且つ全数未満の第1のサブセットを決定すること、並びに
    前記第1のノードに関するデータ系統を決定するために、前記第1のノードから有向リンクの第1の系統のパスに沿ってノードをトラバースすることであって、前記データ系統が、(1)前記第1のノードの上流の有向リンクの一方向の上流の系統のパスからなるディペンデンシー系統、及び(2)前記第1のノードの下流の有向リンクの一方向の下流の系統のパスからなるインパクト系統のうちの片方又は両方を含み、前記データ系統を決定することが、それぞれのトラバースされるノードに関して、少なくとも部分的に前記トラバースされるノードに関連するいずれかのタグ識別子又はタグ値に基づいて、前記データ系統に前記トラバースされるノードを追加すべきか又は前記データ系統から前記トラバースされるノードを除外すべきかを決定することを含む、前記トラバースすることを含む、前記処理するための手段を含む、前記コンピューティングシステム。

JP2017540770A 2015-02-11 2016-02-10 データ系統図のフィルタリング Active JP6469878B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562114684P 2015-02-11 2015-02-11
US62/114,684 2015-02-11
PCT/US2016/017246 WO2016130615A1 (en) 2015-02-11 2016-02-10 Filtering data lineage diagrams

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019005240A Division JP2019091475A (ja) 2015-02-11 2019-01-16 データ系統図のフィルタリング

Publications (2)

Publication Number Publication Date
JP2018511103A JP2018511103A (ja) 2018-04-19
JP6469878B2 true JP6469878B2 (ja) 2019-02-13

Family

ID=55487092

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017540770A Active JP6469878B2 (ja) 2015-02-11 2016-02-10 データ系統図のフィルタリング
JP2019005240A Pending JP2019091475A (ja) 2015-02-11 2019-01-16 データ系統図のフィルタリング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019005240A Pending JP2019091475A (ja) 2015-02-11 2019-01-16 データ系統図のフィルタリング

Country Status (9)

Country Link
US (1) US10521459B2 (ja)
JP (2) JP6469878B2 (ja)
KR (1) KR102001749B1 (ja)
CN (1) CN107251021B (ja)
AU (1) AU2016219421B2 (ja)
CA (1) CA2975530C (ja)
HK (1) HK1244334A1 (ja)
SG (1) SG11201706195YA (ja)
WO (1) WO2016130615A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100615630B1 (ko) 2004-09-23 2006-09-19 주식회사 한랩 원심 분리기용 자동 평형형 로터
JP6594950B2 (ja) 2014-07-24 2019-10-23 アビニシオ テクノロジー エルエルシー データ系統の要約
US10521459B2 (en) 2015-02-11 2019-12-31 Ab Initio Technology Llc Filtering data lineage diagrams
CN107430611B (zh) 2015-02-11 2021-12-31 起元科技有限公司 过滤数据沿袭图
US10379825B2 (en) 2017-05-22 2019-08-13 Ab Initio Technology Llc Automated dependency analyzer for heterogeneously programmed data processing system
CN108512726B (zh) * 2018-03-29 2020-06-02 上海连尚网络科技有限公司 一种数据监控的方法及设备
US11030248B2 (en) 2018-04-18 2021-06-08 Palantir Technologies Inc. Resource dependency system and graphical user interface
US11003645B1 (en) * 2019-10-04 2021-05-11 Palantir Technologies Inc. Column lineage for resource dependency system and graphical user interface
US11204953B2 (en) 2020-04-20 2021-12-21 International Business Machines Corporation Generation of lineage data subset based upon business role
US11349957B2 (en) 2020-05-14 2022-05-31 Bank Of America Corporation Automatic knowledge management for data lineage tracking
US11520801B2 (en) 2020-11-10 2022-12-06 Bank Of America Corporation System and method for automatically obtaining data lineage in real time

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966072A (en) 1996-07-02 1999-10-12 Ab Initio Software Corporation Executing computations expressed as graphs
US6584581B1 (en) 1999-12-06 2003-06-24 Ab Initio Software Corporation Continuous flow checkpointing data processing
US7974875B1 (en) 2000-03-21 2011-07-05 Aol Inc. System and method for using voice over a telephone to access, process, and carry out transactions over the internet
US7164422B1 (en) 2000-07-28 2007-01-16 Ab Initio Software Corporation Parameterized graphs with conditional components
JP2002099561A (ja) 2000-09-21 2002-04-05 Toshiba Corp データ変換方法およびデータ変換システム並びに記憶媒体
US6978271B1 (en) * 2000-10-31 2005-12-20 Unisys Corporation Mechanism for continuable calls to partially traverse a dynamic general tree
US7210130B2 (en) * 2002-02-01 2007-04-24 John Fairweather System and method for parsing data
US20040010752A1 (en) * 2002-07-09 2004-01-15 Lucent Technologies Inc. System and method for filtering XML documents with XPath expressions
US7734619B2 (en) 2005-05-27 2010-06-08 International Business Machines Corporation Method of presenting lineage diagrams representing query plans
US7716630B2 (en) 2005-06-27 2010-05-11 Ab Initio Technology Llc Managing parameters for graph-based computations
US7493570B2 (en) 2005-09-12 2009-02-17 International Business Machines Corporation User interface options of a data lineage tool
US7378969B2 (en) * 2005-10-25 2008-05-27 Sap Ag Systems and methods for visualizing auto-id data
US20090043489A1 (en) 2007-01-17 2009-02-12 Weidner David P Point of reference directions
US8230108B2 (en) 2007-04-13 2012-07-24 Hart Communication Foundation Routing packets on a network using directed graphs
JP5453273B2 (ja) 2007-09-20 2014-03-26 アビニシオ テクノロジー エルエルシー グラフベース計算におけるデータフロー管理
US9760612B2 (en) 2008-02-26 2017-09-12 Ab Initio Technology, Llc Graphic representations of data relationships
CA2940960A1 (en) 2008-12-02 2010-06-10 Ab Initio Technology Llc Visualizing relationships between data elements and graphical representations of data element attributes
US8819010B2 (en) * 2010-06-28 2014-08-26 International Business Machines Corporation Efficient representation of data lineage information
CN103180826B (zh) 2010-10-25 2017-04-05 起元技术有限责任公司 在代表计算机程序的数据流图中管理数据集对象
CA2860470A1 (en) * 2010-12-30 2012-07-05 Skai, Inc. System and method for creating, deploying, integrating, and distributing nodes in a grid of distributed graph databases
WO2012094496A1 (en) 2011-01-07 2012-07-12 Ab Initio Technology Llc Flow analysis instrumentation
US9202185B2 (en) * 2011-04-08 2015-12-01 Ca, Inc. Transaction model with structural and behavioral description of complex transactions
US8782614B2 (en) * 2011-04-08 2014-07-15 Ca, Inc. Visualization of JVM and cross-JVM call stacks
US8874525B2 (en) 2011-04-19 2014-10-28 Autodesk, Inc. Hierarchical display and navigation of document revision histories
US9430583B1 (en) * 2011-06-10 2016-08-30 Salesforce.Com, Inc. Extracting a portion of a document, such as a web page
US8849824B2 (en) 2011-10-07 2014-09-30 Kabushiki Kaisha Square Enix Database visualization system
US9721039B2 (en) 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities
JP5542289B2 (ja) * 2012-01-23 2014-07-09 トヨタ自動車株式会社 オイル添加物およびオイルフィルター
US9753926B2 (en) * 2012-04-30 2017-09-05 Salesforce.Com, Inc. Extracting a portion of a document, such as a web page
US10089335B2 (en) 2012-07-10 2018-10-02 Microsoft Technology Licensing, Llc Data lineage across multiple marketplaces
US9063998B2 (en) 2012-10-18 2015-06-23 Oracle International Corporation Associated information propagation system
US9514203B2 (en) * 2013-07-02 2016-12-06 Bank Of America Corporation Data discovery and analysis tools
US9256656B2 (en) * 2013-08-20 2016-02-09 International Business Machines Corporation Determining reliability of data reports
WO2015039046A1 (en) * 2013-09-16 2015-03-19 Metanautix, Inc. Data flow exploration
JP6594950B2 (ja) 2014-07-24 2019-10-23 アビニシオ テクノロジー エルエルシー データ系統の要約
US10025878B1 (en) * 2014-11-11 2018-07-17 Google Llc Data lineage analysis
CN107430611B (zh) 2015-02-11 2021-12-31 起元科技有限公司 过滤数据沿袭图
US10521459B2 (en) 2015-02-11 2019-12-31 Ab Initio Technology Llc Filtering data lineage diagrams
US9712554B2 (en) 2015-04-09 2017-07-18 Accenture Global Services Limited Event correlation across heterogeneous operations
US10382566B2 (en) 2015-04-16 2019-08-13 Entit Software Llc Business service discovery
US10120923B2 (en) 2015-11-30 2018-11-06 Bank Of America Corporation Data discovery and analysis tool

Also Published As

Publication number Publication date
US10521459B2 (en) 2019-12-31
CN107251021A (zh) 2017-10-13
CN107251021B (zh) 2021-07-02
KR102001749B1 (ko) 2019-07-18
HK1244334A1 (zh) 2018-08-03
JP2019091475A (ja) 2019-06-13
AU2016219421A1 (en) 2017-08-17
JP2018511103A (ja) 2018-04-19
WO2016130615A1 (en) 2016-08-18
SG11201706195YA (en) 2017-08-30
CA2975530A1 (en) 2016-08-18
KR20170117155A (ko) 2017-10-20
US20160232229A1 (en) 2016-08-11
CA2975530C (en) 2020-01-28
AU2016219421B2 (en) 2019-04-18

Similar Documents

Publication Publication Date Title
JP6688407B2 (ja) データ系統図のフィルタリング
JP6469878B2 (ja) データ系統図のフィルタリング
US11281596B2 (en) Mapping attributes of keyed entities
JP6594950B2 (ja) データ系統の要約
JP5940560B2 (ja) データの集合体に対する変更の管理
US20230040635A1 (en) Graph-based impact analysis of misconfigured or compromised cloud resources
CN109408643A (zh) 基金相似度计算方法、系统、计算机设备和存储介质
Ritter Advanced data processing in the business network system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190116

R150 Certificate of patent or registration of utility model

Ref document number: 6469878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250