JP2010541048A - Data flow management in graph-based calculations - Google Patents
Data flow management in graph-based calculations Download PDFInfo
- Publication number
- JP2010541048A JP2010541048A JP2010525993A JP2010525993A JP2010541048A JP 2010541048 A JP2010541048 A JP 2010541048A JP 2010525993 A JP2010525993 A JP 2010525993A JP 2010525993 A JP2010525993 A JP 2010525993A JP 2010541048 A JP2010541048 A JP 2010541048A
- Authority
- JP
- Japan
- Prior art keywords
- data
- level
- hierarchical
- flows
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims description 28
- 238000000034 method Methods 0.000 claims abstract description 100
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000000926 separation method Methods 0.000 claims description 55
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 24
- 238000010606 normalization Methods 0.000 description 18
- 239000002131 composite material Substances 0.000 description 16
- 230000008901 benefit Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/448—Execution paradigms, e.g. implementations of programming paradigms
- G06F9/4494—Execution paradigms, e.g. implementations of programming paradigms data driven
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
複数のレベルを含む階層と関連するデータ要素を処理する方法は、各々のフローが前記階層のレベルと関連付けられる、データ要素の複数のフローを形成するステップと、前記フローのうちの少なくとも幾つかに、前記階層のレベルと関連する階層構造情報を含めるステップとを含む。前記レベルのうちの少なくとも一つについて、二つ以上かつ全フロー数未満の前記フローに、そのレベルと関連する階層構造情報が含まれる。
【選択図】 図1AA method of processing a data element associated with a hierarchy including a plurality of levels includes forming a plurality of flows of data elements, each flow being associated with a level of the hierarchy, and at least some of the flows Including hierarchical structure information associated with the levels of the hierarchy. For at least one of the levels, two or more and less than the total number of flows include hierarchical structure information related to the level.
[Selection] Figure 1A
Description
本発明は、グラフベースの計算におけるデータフロー管理に関する。 The present invention relates to data flow management in graph-based computation.
複雑な計算は、多くの場合、有向グラフによるデータフローとして表すことができ、計算コンポーネントはそのグラフの頂点と関連付けられ、コンポーネント間のデータフローはグラフのリンク(弧、辺)と対応付けられる。このようなグラフベースの計算を実装するシステムは、米国特許第5,966,072号、「EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS(グラフとして表される計算の実行)」に記載されている。グラフベースの計算を実行する一手法は、グラフの異なる頂点とそれぞれが関連付けられる幾つかのプロセスを実行することと、グラフのリンクに従ってプロセス間の通信経路を確立することである。例えば、通信経路は、TCP/IPまたはUNIX(登録商標)ドメインソケットを用いるか、または共有メモリを用いてプロセス間でデータを渡すことができる。 Complex computations can often be represented as a data flow with a directed graph, where computational components are associated with vertices of the graph, and data flow between components is associated with graph links (arcs, edges). A system that implements such a graph-based calculation is described in US Pat. No. 5,966,072, “EXECTING COMPUTATIONS EXPRESSED AS GRAPHS”. One approach to performing graph-based computation is to run several processes, each associated with a different vertex of the graph, and to establish communication paths between the processes according to the graph links. For example, the communication path can use TCP / IP or UNIX (registered trademark) domain sockets, or can pass data between processes using shared memory.
一態様では、概して、複数のレベルを含む階層と関連するデータ要素を処理するための方法は、各々のフローが階層のレベルと関連付けられるデータ要素の複数のフローを形成するステップと、フローのうちの少なくとも幾つかに、階層のレベルと関連する階層構造情報を含めるステップとを含む。レベルのうちの少なくとも一つにおいて、二つ以上かつ全フロー数未満のフローに、そのレベルと関連する階層構造情報が含まれる。 In one aspect, in general, a method for processing a data element associated with a hierarchy that includes a plurality of levels includes forming a plurality of flows of data elements, each flow being associated with a level of the hierarchy, Including at least some of the hierarchical structure information associated with the levels of the hierarchy. In at least one of the levels, two or more flows less than the total number of flows include hierarchical structure information related to the level.
各態様には以下の特徴の内の一つ以上が含まれる。 Each aspect includes one or more of the following features.
階層構造情報には、一つ以上のデータ要素の隣接するセットを分離する分離要素が含まれ、各分離要素は階層のレベルと関連付けられ、レベルのうちの少なくとも一つのレベルについて、二つ以上かつ全フロー数未満のフローがそのレベルと関連する分離要素を含む。 Hierarchical structure information includes separation elements that separate adjacent sets of one or more data elements, each separation element being associated with a level of the hierarchy, and at least one of the levels Less than the total number of flows includes a separation element associated with that level.
本方法は、分離要素に少なくとも一部は基づいて、階層データ構造内のデータ要素の表現と複数のフロー内のデータ要素の表現との間での変換を行うステップを更に含んでいる。 The method further includes converting between a representation of the data element in the hierarchical data structure and a representation of the data element in the plurality of flows based at least in part on the separation element.
階層データ構造はマークアップ言語によりフォーマットされる。 The hierarchical data structure is formatted with a markup language.
マークアップ言語はXMLである。 The markup language is XML.
階層データ構造はプログラミング言語によりフォーマットされる。 The hierarchical data structure is formatted by a programming language.
プログラミング言語はPL/I、COBOLまたはIMSである。 The programming language is PL / I, COBOL or IMS.
表現の間での変換を行うステップには、階層データ構造内のデータ要素の表現から複数のフロー内のデータ要素の表現への変換を行うステップが含まれる。 The step of converting between the representations includes the step of converting from the representation of the data elements in the hierarchical data structure to the representation of the data elements in the plurality of flows.
データ要素の複数のフローを形成するステップには、階層データ構造から第一レベルと関連する第一データ要素を抽出するステップと、第一データ要素と対応する階層データ構造の一部内にネストされた第二レベルと関連する一つ以上のデータ要素を抽出するステップと、第二レベルと関連するフロー内に、第二レベルと関連する、抽出されたデータ要素のうちの少なくとも幾つかを含めるステップと、第一レベルと関連するフロー内に第一データ要素を含め、第二レベルと関連するフロー内に第一レベルと関連する対応する分離要素を含めるステップとが含まれる。 The steps of forming multiple flows of data elements include extracting a first data element associated with the first level from the hierarchical data structure and nested within a portion of the hierarchical data structure corresponding to the first data element. Extracting one or more data elements associated with the second level; including at least some of the extracted data elements associated with the second level in a flow associated with the second level; Including a first data element in a flow associated with the first level and a corresponding separation element associated with the first level in a flow associated with the second level.
データ要素の複数のフローを形成するステップには、複数の階層データ構造のストリームを受け取るするステップと、階層データ構造毎に、階層データ構造からデータ要素を抽出するステップであって、各データ要素は対応するレベルと関連付けられる抽出ステップと、親データ要素と対応する階層データ構造の一部内にネストされた一つ以上の子データ要素の所与のセットに対して、子データ要素と対応するレベルと関連するフロー内に、子データ要素のセットおよび分離要素を含めるステップと、親データ要素と対応するレベルと関連するフロー内に親データ要素を含めるステップとが含まれる。 The steps of forming a plurality of flows of data elements include receiving a stream of a plurality of hierarchical data structures and extracting the data elements from the hierarchical data structure for each hierarchical data structure, wherein each data element is An extraction step associated with the corresponding level, and for a given set of one or more child data elements nested within a portion of the hierarchical data structure corresponding to the parent data element, the level corresponding to the child data element; Include a set of child data elements and separation elements in the associated flow and include a parent data element in the flow associated with the level corresponding to the parent data element.
含められた分離要素は、親データ要素と対応するレベルと関連付けられる。 The included separation element is associated with a level corresponding to the parent data element.
表現の間での変換を行うステップには、複数のフロー内のデータ要素の表現から階層データ構造内のデータ要素の表現への変換を行うステップが含まれる。 The step of converting between representations includes converting from the representation of data elements in a plurality of flows to the representation of data elements in a hierarchical data structure.
本方法は、第一レベルと関連するフローから第一データ要素を受け取るステップと、第二レベルと関連するフローから、第一レベルと関連する一つ以上のデータ要素および分離要素を受け取るステップと、階層データ構造の一部に第一データ要素を含めるステップと、第一データ要素を含む階層データ構造の一部内にネストされた第二レベルと関連するフローから受け取ったデータ要素のうちの少なくとも幾つかを含めるステップとを更に含んでいる。 The method includes receiving a first data element from a flow associated with the first level, receiving one or more data elements and separation elements associated with the first level from a flow associated with the second level; Including a first data element in a portion of the hierarchical data structure; and at least some of the data elements received from the flow associated with the second level nested within the portion of the hierarchical data structure that includes the first data element And further including a step.
本方法は、マルチ階層データ構造のストリームを生成するステップを更に含み、階層データ構造毎に、所与のレベルと関連するフローから所与のレベルと関連するデータ要素を受け取るステップを含み、第一レベルと関連するフローから受け取ったデータ要素毎に、受け取ったデータ要素を階層データ構造の一部に含めるステップと、他のレベルと関連するフロー内の分離要素に基づいて、他のレベルと関連する一つ以上のデータ要素の対応するセットが存在するかどうかを特定するステップとを含み、その対応する受け取ったデータ要素を含む階層データ構造の一部内にネストされた一つ以上のデータ要素の対応する各セットを含めるステップとを含んでいる。 The method further includes generating a stream of a multi-hierarchical data structure, and for each hierarchical data structure, receiving a data element associated with a given level from a flow associated with the given level, For each data element received from the flow associated with the level, include the received data element as part of the hierarchical data structure and associate with the other level based on the separation elements in the flow associated with the other level Determining whether there is a corresponding set of one or more data elements, and corresponding one or more data elements nested within a portion of the hierarchical data structure that includes the corresponding received data element Including each set to be included.
他のレベルと関連するフロー内の分離要素は第一レベルと関連付けられる。 Separation elements in the flow that are associated with other levels are associated with the first level.
階層構造情報には、階層のレベルの複数のデータ要素の内の少なくとも一つのデータ要素を一意に識別する少なくとも幾つかのデータ要素内に含まれる一つ以上のインデックス値が含まれ、各インデックス値は階層のレベルと関連付けられ、レベルのうちの少なくとも一つについて、二つ以上かつ全フロー数未満のフローにそのレベルと関連するインデックス値が含まれる。 The hierarchical structure information includes one or more index values included in at least some data elements that uniquely identify at least one data element among the plurality of data elements at the level of the hierarchy. Is associated with a level of the hierarchy, and for at least one of the levels, an index value associated with that level is included in two or more flows and less than the total number of flows.
データ要素のうちの少なくとも幾つかには、階層に従って親データ要素を一意に識別するインデックス値が含まれる。 At least some of the data elements include an index value that uniquely identifies the parent data element according to the hierarchy.
本方法は、インデックス値に少なくとも一部は基づいて、階層データ構造内のデータ要素の表現と複数のフロー内のデータ要素の表現との間での変換を行うステップを更に含んでいる。 The method further includes converting between a representation of the data element in the hierarchical data structure and a representation of the data element in the plurality of flows based at least in part on the index value.
階層データ構造はマークアップ言語によりフォーマットされる。 The hierarchical data structure is formatted with a markup language.
マークアップ言語はXMLである。 The markup language is XML.
階層データ構造はプログラミング言語によりフォーマットされる。 The hierarchical data structure is formatted by a programming language.
プログラミング言語はPL/I、COBOLまたはIMSである。 The programming language is PL / I, COBOL or IMS.
別の態様では、概して、複数のレベルを含む階層と関連するデータ要素を処理するシステムは、各々のフローが階層のレベルと関連付けられるデータ要素の複数のフローを形成する手段と、前記階層のレベルと関連する階層構造情報を、フローのうちの少なくとも幾つかに含める手段とを含み、前記複数のレベルの内の少なくとも一つのレベルについて、二つ以上かつ全フロー数未満のフローに、そのレベルと関連する階層構造情報が含まれる。 In another aspect, in general, a system for processing a data element associated with a hierarchy including a plurality of levels comprises: means for forming a plurality of flows of data elements, each flow being associated with a level of the hierarchy; Including at least some of the plurality of levels, and for at least one of the plurality of levels, two or more and less than the total number of flows. Related hierarchical structure information is included.
別の態様では、概して、コンピュータで読取り可能な媒体上に格納されたグラフベース計算の仕様を処理するためのコンピュータープログラムであって、前記コンピュータープログラムは、コンピュータに、各々のフローが階層のレベルと関連付けられるデータ要素の複数のフローを形成させる命令と、これらのフローのうちの少なくとも幾つかに、階層のレベルと関連する階層構造情報を含めさせる命令とを含み、これらのレベルの内の少なくとも一つについて、二つ以上かつ全フロー数未満のフローに、そのレベルと関連する階層構造情報が含まれる。 In another aspect, a computer program for processing a specification for graph-based computations stored on a computer-readable medium generally, the computer program causing a computer to process each flow at a hierarchical level. Instructions for forming a plurality of flows of associated data elements and instructions for causing at least some of these flows to include hierarchical structure information associated with the levels of the hierarchy, at least one of these levels For each, the flow of two or more and less than the total number of flows includes hierarchical structure information related to the level.
各態様は以下の利点の内の一つ以上を有する。 Each embodiment has one or more of the following advantages.
データ要素のフローに階層構造情報を含めるステップにより、グラフベース計算内のコンポーネントは、コンポーネントを連結するリンクにまたがる異なるフロー内のデータ要素間の関連を認識することができるよるになる。階層データ構造の要素は、データ構造全体の表現をメモリ内に格納しなくても、その関連性を保ったまま、データ要素内の合成キーから、または分離要素から抽出することができる。合成キーを用いて、階層からの関連性に基づいてデータ要素をグループ化するステップを含むデータ要素に対する各種の操作を容易にすることができる。例えば、合成キーを、少なくとも幾つかの階層関連性を再構成するか、またはデータ要素を再編成するための、結合操作内におけるキーフィールドとして用いることができる。また、フロー内の分離要素の編成により、コンポーネントは元のデータ構造から少なくとも幾つかの階層関連性を再構成することもできる。幾つかの階層構造は、フロー内の離散的データ要素により黙示的に表されるので、フロー内に分離要素を選択的に挿入すると、全てのデータ要素に挿入される合成キーよりずっと効率的に構造を表すことができる場合もある。例えば、所与のレベルと関連付けられる分離要素を、下位レベルのフローにのみ含めることができ、同位または高位レベルのフロー内に含める必要がない(下位レベルとは、ルートからより遠い、関連する階層のレベルと対応する、より深くネストされているレベルを表す)。同様に、合成キーを用いて階層を効率的に表現するには、所与のレベルと関連する合成キーをも、そのレベルに親を有するデータ要素のフローにのみ含めることができ、異なるレベルに親を有するデータ要素を持つフローに含める必要がない。 The step of including hierarchical information in the flow of data elements allows components in the graph-based computation to recognize associations between data elements in different flows across the links connecting the components. The elements of the hierarchical data structure can be extracted from the composite key in the data element or from the separation element while maintaining the relevance without storing the representation of the entire data structure in memory. The composite key can be used to facilitate various operations on the data elements including the step of grouping the data elements based on relevance from the hierarchy. For example, a composite key can be used as a key field in a join operation to reconstruct at least some hierarchical relationships or reorganize data elements. The organization of separation elements in the flow also allows the component to reconstruct at least some hierarchical relationships from the original data structure. Some hierarchical structures are implicitly represented by discrete data elements in the flow, so selective insertion of separation elements in the flow is much more efficient than synthetic keys inserted into all data elements. In some cases, the structure can be represented. For example, separation elements associated with a given level can only be included in lower level flows and need not be included in peer or higher level flows (a lower level is an associated hierarchy that is farther from the root Represents a deeper nested level that corresponds to a level in Similarly, to efficiently represent a hierarchy using synthetic keys, a synthetic key associated with a given level can also be included only in the flow of data elements that have a parent at that level, at different levels. There is no need to include it in a flow with a data element that has a parent.
本発明の他の特徴および利点は、以下の説明およびクレームから明らとなる。 Other features and advantages of the invention will be apparent from the following description and claims.
図1Aを参照すると、グラフベース計算を実行するためのシステム100には、データ格納102に結合される開発環境104およびデータ格納102に結合されるランタイム環境108が含まれる。開発者101は開発環境102を用いてアプリケーションを構築する。アプリケーションは、開発者が開発環境102を使用した成果として、データ格納に書き込まれてもよいデータ格納102内のデータ構造により規定される一つ以上の計算グラフと関連付けられる。計算グラフ105に対するデータ構造103は、例えば、計算グラフの頂点(コンポーネントまたはデータセット)および頂点間のリンク(ワーク要素のフローを表す)を規定する。データ構造には、計算グラフ(「データフローグラフ」とも呼ばれる)のコンポーネント、データセットおよびフローの各種特性を含めることもできる。例えば、データ処理アプリケーションは、一つ以上の入力データセットから、コンポーネント処理グラフを介して、一つ以上の出力データセットまで流れるデータに対して実行される計算を実装する計算グラフと関連付けてもよい。
Referring to FIG. 1A, a
ランタイム環境108は、UNIX(登録商標)オペレーティングシステム等の適切なオペレーティングシステムの管理のもとで、一台以上の汎用コンピュータ上で動作させてもよい。例えば、ランタイム環境108には、ローカル(例えば、SMPコンピュータ等のマルチプロセッサシステム)もしくはローカル分散環境(例えば、クラスタまたはMPPとして結合されるマルチプロセッサ)、またはリモート、もしくはリモート分散環境(例えば、LANやWANネットワークを経由して結合されるマルチプロセッサ)、またはこれらの任意の組合せのいずれかによる複数の中央処理ユニット(CPU)を用いるコンピューターシステムの構成を含むマルチノード並列計算環境を含めることができる。ランタイム環境108がアクセスする入力、出力または中間データセットは、並列ファイルシステムに(例えば、データ格納102、または、ローカルまたは通信リンク経由のリモートでシステム100に結合される外部データストレージ内に)格納される並列「マルチファイル」とすることができる。
The
グラフ内の複数のコンポーネントを同時に実行することにより並列処理の一形式が提供される。グラフの各種のコンポーネントを様々な計算ノードに分散させることにより、更なる並列処理を達成できる。グラフの要素(例えば、データセット、コンポーネント、およびフロー)を明示的または黙示的に複製して、ランタイム環境108に更なる並列処理を導入できる。
A form of parallel processing is provided by executing multiple components in a graph simultaneously. Further parallel processing can be achieved by distributing the various components of the graph to various computing nodes. Graph elements (e.g., datasets, components, and flows) can be explicitly or implicitly duplicated to introduce further parallel processing into the
ランタイム環境108は、計算を実行し、構成するために、格納されているスクリプトまたはユーザー107からの制御入力を受け取るよう構成される。制御入力には、格納されているグラフデータ構造内で規定されている、対応する計算グラフを用いる特定のデータセットを処理するコマンドを含めることができる。ユーザー107は、例えば、コマンドラインやグラフィカルインターフェースを用いて、ランタイム環境108と交信することができる。
The
ランタイム環境108には、所与の計算グラフを規定する、格納されたグラフデータ構造を読み出して、コンポーネントの計算を実行するためのプロセス(例えば、ホストオペレーティングシステム内部の実行プロセスまたは実行スレッド)等の、計算リソースの割り当て及び構成をする、実行時前モジュール110が含まれる。実行時前モジュール110は、コンポーネント間のリンクを実装するためのコンポーネント間通信リソース(例えば、いわゆるパイプまたは共有メモリ)も割り当て、プロセスが新規ワーク要素を受け取る準備が整っていないコンポーネントの入力ポートに到着したワーク要素の格納空間を割り当てる。コンポーネント間のリンクを介してワーク要素を渡すリソースは、システム100の処理および格納のオーバーヘッドに貢献する。
The
ランタイム環境108には、実行時前モジュール110が計算グラフに割り当てるプロセスの実行をスケジュール化し、制御する実行モジュール112が含まれる。実行モジュール112は、グラフコンポーネントと関連する処理の間にアクセスされるデータベースエンジン、データストレージ、または他のモジュール等のシステム100に結合される外部計算リソースと交信することができる。
The
図1Bを参照すると、4つのリンクされた頂点を有する計算グラフ105の単純な実施例には、入力データセット120が含まれ、入力データセットは、第一コンポーネント122にリンクされ、第一コンポーネントは第二コンポーネント124にリンクされ、第二コンポーネントは出力データセット126にリンクされている。リンクによりワーク要素はグラフ105の頂点間を流れることができる。幾つかのワーク要素はデータ要素130(データベースの個々のレコードまたは一つ以上のレコードと関連する値等)と対応し、幾つかのワーク要素は、実際のデータを表すとは限らないがデータ要素を処理するために用いられる処理要素132と対応する。例えば、処理要素132は、チェックポイント要素、計算ポイント要素、または分離要素を含むことができる。入力データセット120および出力データセット126は、例えば、データベースシステムと関連するレコードまたはトランザクション処理システムと関連するトランザクションを表してもよい。
Referring to FIG. 1B, a simple example of a
本実施例では、コンポーネント122及び124は、全体の計算グラフ105により定義される計算の一部と関連付けられ、入力ポートでリンクを介して受け取る一つ以上の入力データ要素に基づいて計算を実行し、出力ポートからリンクを介して一つ以上の出力データ要素を提供する。出力データ要素は、例えば、入力要素を変換したバージョンであってもよいし、または出力データ要素は、入力データ要素のいずれかと直接対応するとは限らないこともある。コンポーネント122と124の間のワーク要素の内の幾つかは処理要素132である。コンポーネント124が受け取った処理要素132がチェックポイント要素と対応する場合、コンポーネント124はチェックポイントプロシージャを実行して、計算状態を格納し、障害が発生した際に、その計算におけるその時点までグラフ105が復元できるようにする。コンポーネント124が受け取った処理要素132が計算ポイントである場合、コンポーネント124は、(例えば、引用により本明細書に取り込まれる、米国特許第6,654,907号、「Continuous flow compute point based data processing(「連続フロー計算ポイントに基づくデータ処理」)に詳細に記載されているように)最後の計算ポイント以降に受け取った一連のデータ要素に基づいて結果を更新する等の計算の所定操作を実行する。計算ポイントは、所与の計算の関連部分と対応する様々なフロー内部の場所をマーキングすることにより、グラフ内のコンポーネント間を同期させる形を提供できる。
In this example,
分離要素により、同期が可能になるとともに、様々なフロー内のデータ要素間の関連性を各コンポーネントが認識することも可能になる。例えば、分離要素をワーク要素のフロー内で用いて、階層またはネスト構造を有するデータ等の構造化データの様々な部分と関連するデータ要素のグループを分離することができる。階層データ構造の例は、拡張マークアップ言語(XML)等のマークアップ言語に従ってフォーマットされたテキストを含むファイルまたはファイルの一部である。XML文書では、開始と終了の一対のタグを互いの内部でネスト化することができる。階層内のレベルは文書内のタグのネストの深さと対応する。ネスト構造を有するデータの別の例は、計算内部でネストされた繰返しループに対する引数のネスト化リストである。階層データは、PL/IまたはCOBOLのようなプログラミング言語、またはIBM Information Management System(IMS)のような階層化データベースにおいて見られるような階層データ構造に従って、フォーマットすることもできる。 Separation elements allow synchronization and allow each component to recognize the relationships between data elements in various flows. For example, separation elements can be used in a work element flow to separate groups of data elements associated with various portions of structured data, such as data having a hierarchy or nested structure. An example of a hierarchical data structure is a file or part of a file that contains text formatted according to a markup language such as Extensible Markup Language (XML). In an XML document, a pair of start and end tags can be nested inside each other. The levels in the hierarchy correspond to the depth of tag nesting in the document. Another example of data having a nested structure is a nested list of arguments for a iteration loop nested within a computation. Hierarchical data can also be formatted according to a hierarchical data structure such as found in a programming language such as PL / I or COBOL, or a hierarchical database such as IBM Information Management System (IMS).
場合によっては、入力データセット内のデータが階層化されていてもよく、そのコンポーネントは、(例えば、フロー内のデータ要素としての)データ構造内部のデータ値だけでなく、データ値間の関連性の内の少なくとも幾つかをも受け取る必要があってもよい。これらの関連性は、フロー内の階層構造情報(例えば、分離要素または合成キー)を含めることにより指示できる。入力データセットからの階層データ構造は、データ構造からデータ値を抽出し、階層構造情報を含む一つ以上の出力フローを生成するコンポーネントが受け取ることができる。例えば、他の下流コンポーネントが元のデータ構造から階層関連性の内の少なくとも幾つかを特定できる編成では、分離要素によってデータ要素を分離することができる。あるいは、他の下流コンポーネントが元のデータ構造から階層関連性の内の少なくとも幾つかを特定できる代理キーをデータ要素に含めることができる。かかるコンポーネント(「正規化コンポーネント」と呼ぶ)の例については詳細に後述する。場合によっては、出力データセットに格納されるべき階層データ構造にデータ要素を編成する必要があってもよい。コンポーネントは、一つ以上のフローから受け取った様々なデータ要素をフロー内の分離要素に少なくとも一部は基づいてどのように編成すべきかを特定でき、出力データセットに対して適切なデータ構造を生成することができる。かかるコンポーネント(「非正規化コンポーネント」と呼ぶ)の例については詳細に後述する。 In some cases, the data in the input data set may be layered and its components are not only the data values within the data structure (eg, as data elements in the flow) but also the relationships between the data values You may also need to receive at least some of them. These relationships can be indicated by including hierarchical structure information (eg, separation elements or synthetic keys) in the flow. A hierarchical data structure from an input data set can be received by a component that extracts data values from the data structure and generates one or more output flows that include hierarchical structure information. For example, in an organization where other downstream components can identify at least some of the hierarchical relationships from the original data structure, the data elements can be separated by a separation element. Alternatively, the data element can include surrogate keys that allow other downstream components to identify at least some of the hierarchical relationships from the original data structure. Examples of such components (referred to as “normalized components”) will be described in detail later. In some cases, it may be necessary to organize the data elements into a hierarchical data structure to be stored in the output data set. Components can specify how various data elements received from one or more flows should be organized based at least in part on the separation elements in the flow, and generate appropriate data structures for the output data set can do. Examples of such components (referred to as “denormalized components”) will be described in detail later.
XML文書等の幾つかの階層データ構造は、データ構造内の要素にアクセスするためのインターフェースを提供するパーサを用いて処理することができる。XML文書では、パーサのための様々な手法の内の二つの例は、World Wide Web Consortium(ワールドワイドウェブコンソーシアム)(W3C)が開発したドキュメントオブジェクトモデル(DOM)仕様、およびJava(登録商標)とそれに続く他のプログラミング言語のために開発されたSAX(Simple API for XML)である。両手法は、階層を表すネスト構造内に任意の数のXML要素を、そのタグ内のコンテンツが含んでいてもよい一対のルート開始と終了のタグを含む「適格な」XML文書のシンタックスに基づいている。XML要素のフォーマットは以下の通りである: Some hierarchical data structures, such as XML documents, can be processed using a parser that provides an interface for accessing elements in the data structure. In XML documents, two examples of various techniques for parsers are the Document Object Model (DOM) specification developed by the World Wide Web Consortium (W3C), and Java (registered trademark) and SAX (Simple API for XML) was developed for other programming languages. Both approaches use the syntax of a “qualifying” XML document that includes any number of XML elements in a nested structure that represents a hierarchy, and a pair of root start and end tags that the content within that tag may contain. Is based. The format of the XML element is as follows:
上記要素は、名前(本例では「tag_name」)と、オプションで、開始タグで定義される任意の数の属性とを有する開始と終了のタグにより区切られる。各属性は、名前(本例では「attribute_name」)と引用符内の値を有する。いずれの対の開始と終了のタグの間にあるコンテンツにも、その一対の開始と終了のタグ内でネストされた他のXML要素が含まれていてもよい。タグのネスト化に基づいて、各XMLドキュメントは、ルートタグと対応する「ルートノード」と、他のタグ内のXML要素タグのネスト化と対応する、それぞれの親ノードに接続される幾つかの子ノードの構造をもつツリーによって表すことができる階層と対応する。 The element is delimited by a start and end tag having a name ("tag_name" in this example) and optionally an arbitrary number of attributes defined by the start tag. Each attribute has a name (in this example, “attribute_name”) and a value in quotes. Content between any pair of start and end tags may include other XML elements nested within the pair of start and end tags. Based on tag nesting, each XML document has a "root node" corresponding to the root tag and a number of child nodes connected to each parent node corresponding to the nesting of XML element tags in other tags Corresponds to a hierarchy that can be represented by a tree having the structure
例えば、図1Cに示すツリー構造140は、下記のXML文書内にネストされたタグから得られた「階層」を表す。ツリー構造140は、レベル1(ルートレベル)の単一ノード、および三つのレベルの深さに広がる子ノードを有する(各レベルは、ルートノードからの異なる距離に対応し、タグのネスト化の異なる深さに対応する)。各ノードは、対応する属性値によってラベルが付される。
For example, the
SAXおよびDOMの手法は、異なる利点を有する。XML文書を構文解析するためのDOM手法では、パーサは、XML文書のネストされたタグに基づいてノード間の親子関係をもつツリーデータ構造を生成する。DOMパーサは、このツリーデータ構造をメモリに格納してから要素の処理を開始するので、効率的に処理できるXML文書のサイズは、利用可能なメモリ量により制限される。XML文書を構文解析するためのSAX手法では、パーサは、XML文書を順次トラバースし、タグに基づいて文書の要素を認識しながら、アプリケーションに対する関数呼出を生成する。これらの関数呼出は、メモリ内のXML文書全体の表現を格納しなくても、文書をトラバースしながら、要素を処理することができる。従って、(例えば、XMLツリーの最大深さに基づく)SAXパーサは、(例えば、XMLツリー内の全ノード数に基づく)DOMパーサの場合よりも、メモリ要件より小さくて済むのが普通である。SAXパーサは特に長い文書では高速化できるが、一方、DOMパーサは、文書を処理しながら、構造的な関連性の追跡を維持する必要があることに代わり、所定のツリーデータ構造を用いて、より柔軟な処理を実行することができる。 The SAX and DOM approaches have different advantages. In a DOM approach for parsing an XML document, the parser generates a tree data structure with parent-child relationships between nodes based on the nested tags of the XML document. Since the DOM parser stores the tree data structure in a memory and starts processing an element, the size of an XML document that can be efficiently processed is limited by the amount of available memory. In the SAX technique for parsing an XML document, the parser sequentially traverses the XML document and generates function calls to the application while recognizing document elements based on tags. These function calls can process elements while traversing the document without having to store a representation of the entire XML document in memory. Thus, a SAX parser (eg, based on the maximum depth of the XML tree) typically requires less memory requirements than a DOM parser (eg, based on the total number of nodes in the XML tree). While SAX parsers can be accelerated, especially for long documents, DOM parsers use a predetermined tree data structure instead of having to keep track of structural relationships while processing the document, More flexible processing can be executed.
図2に、XML文書等の階層データ構造を処理するための計算グラフ200の実施例を示す。下記実施例では、説明を簡単にするためにXML文書の構造を用いるが、これらの技法は、他の形式の階層データやネストデータに適用することもできる。入力データセット202は、XML文書または複数のXML文書のストリームを提供する。正規化コンポーネント204は、XML文書からデータ要素(例えば、属性、タグ名、および/またはタグ化XML要素のコンテンツ)を抽出し、文書の階層構造の規定レベルからのリンクを介して、所与の出力ポートにデータ要素のフローを提供する。フローには、特定レベルの全データ要素を含めるか、または特定レベルのデータ要素のサブセットを含めることができる(例えば、所与のタグをもつレベルの全要素、および/または所与のタグを伴う親をもつレベルの全要素)。
FIG. 2 shows an embodiment of a
正規化コンポーネント204は、複数の処理モードの内の何れかに従って操作するよう構成することができる。「分離要素処理モード」では、正規化コンポーネント204は、詳細に後述するように、所与の出力ポートを介して、どのデータ要素を送るべきかを特定し、階層構造に従って適切な場所に分離要素を挿入する。「合成キー処理モード」では、正規化コンポーネント204は、詳細に後述するように、所与の出力ポートを介して、どのデータ要素を送るべきかを特定し、ネスト階層構造内のその位置を示す(例えば、「親」のデータ要素を識別する)合成キー(代理キーとも呼ばれる)をもつ各データ要素を増加させる。合成キーを後で結合操作に用いて、XML文書の元のネスト階層構造の内の幾つか、または全てを再構築することができる。両モードは、メモリに全文書構造のコピーを格納することを必要とすることなく、入力データセット202からのXML文書を順次処理することにより、SAXパーサの利点の幾つかを共有する。
The
分離要素処理モードは、場合によっては、更に幾つかの利点を有する。分離要素処理モードでは、グラフ200の計算コンポーネント206、208、210がデータ要素を処理する間にデータ要素に対するより効率の高いメモリ格納要件を提供するXML文書を再構築するのに、何らかの合成キー値または他の情報をもつデータ要素を増加させる必要はない。また、分離要素は、幾つかのフロー(例えば、ツリーの深さと同じ数のフロー)内にXML文書のツリー構造の一部または全てを提供することにより、DOMパーサの利点の内の幾つかを提供することもできる。
The separation element processing mode has some further advantages in some cases. In the separate element processing mode, some composite key value is used to reconstruct an XML document that provides more efficient memory storage requirements for the data elements while the
図2に示す実施例では、入力XML文書は、階層構造の三つの異なるレベルと対応するようネストされた三つの異なるタグからなる単純な構造を有する。正規化コンポーネント204は、三つの異なるタグの内の一つを有するデータ要素を、三つの計算コンポーネント206、208、210のそれぞれに提供する。三つの計算コンポーネントは、データ要素の属性および/もしくはコンテンツの内の幾つかの変換、タグのリネーム、またはデータ要素の挿入や削除等の受け取ったデータ要素の潜在的な修正を行うことができる。処理されたデータ要素は、非正規化コンポーネント220に流れ、出力データセット222内に格納のための出力XML文書を構築する。分離要素処理モードでは、それぞれのフロー内のデータ要素間の分離要素の編成を維持しながら、計算コンポーネントがデータ要素を処理できる。非正規化コンポーネント220は、分離要素を用いて、元のXML文書の階層構造と対応するタグの適切にネスト化された編成内に、処理されたデータ要素を有するXML文書を構築することができる。他の実施例では、XML文書の構造を著しく変更すべき場合、例えば、分離要素の編成を変更したり、(分離要素を適切に削除または挿入して)様々なフローのレベルを変更する操作を実行したり、複数のフローを組み合せたり、一つのフローを複数のフローに分割したりできる各種の追加コンポーネントがグラフに含まれてもよい。
In the embodiment shown in FIG. 2, the input XML document has a simple structure consisting of three different tags nested to correspond to three different levels of the hierarchical structure. The
図3Aに、トップレベル(ルートレベル)の「レベル1」、および二つの取りうるタグの内の一つでタグ化された要素を有する下位レベルの「レベル2」をそれぞれ有する一連のXML文書を処理するためのグラフ300の一部を示す。以下の一連の二つのXML文書は、入力データセット302が提供する文書のストリームの一部の実施例である。
FIG. 3A shows a series of XML documents each having a top-level (root level) “
図3Bは、XML文書を分離要素処理モードで処理して、XML文書の階層構造を維持できる適切な分離要素によって分離された文書から、属性値をもつデータ要素のフローを提供するために、正規化コンポーネント304が使用する例示的プロシージャ330のフローチャートを示す。プロシージャ330は、新規XML要素の開始タグを見つけると「抽出」ステップ332で開始される再帰的プロシージャとして表されている。このプロシージャ330は、見つけたルートのXML要素(本実施例では、「レベル1」と関連する「top」タグを有する)に最初に適用される。コンポーネント304は、見つけたXML要素の属性および何らかの非タグコンテンツを抽出し(332)、対応するフローのデータ要素に適切なフォーマットで一時的に格納する。コンポーネント304は、新規開始タグか終了タグである文書内の次の項目を見つける(334)。見つけたXML要素内に新規開始タグがネストされているのを発見すると、コンポーネント304は、プロシージャ330を再帰的に適用する。終了タグが見つかった場合、コンポーネント304は、所与のレベルと関連するフロー内の、終了タグの所与のレベルと関連する保存されたデータ要素を出力する(336)よう進む。コンポーネント304は、また、所与のレベル未満のレベル(もしあれば)と関連する他のフローの各々に分離要素を出力する(337)。場合によって、分離要素には、終了タグの所与のレベルの指示が含まれ、それにより、様々なレベルの終了タグに基づいて挿入されたフロー内の様々な分離要素を区別することができる。次いで、コンポーネント304は、何れかの開始プロシージャが残りの部分を呼び出す場合は再帰呼出を出る(338)か、または次の開始ルートタグを見つけるよう進む(340)。
FIG. 3B illustrates the processing of an XML document in a separation element processing mode to provide a flow of data elements with attribute values from a document separated by a suitable separation element that can maintain the hierarchical structure of the XML document. 6 shows a flowchart of an
図3Cに、上記二つのXML文書に適用されるプロシージャ330の結果を示す。レベル1と関連するフロー361は、「top」タグを有するトップレベルのXML要素からの属性値を持つデータ要素を提供する。レベル2と関連するフロー362は、「a」タグを有するXML要素からの属性値を持つデータ要素を提供する。同じくレベル2と関連するフロー363は、「b」タグを有するXML要素からの属性値を持つデータ要素を提供する。本実施例では、正規化コンポーネント304は、トップレベル終了タグ毎にフロー362および363それぞれにレベル1の分離要素を挿入する。「a」および「b」に対する終了タグは最下位レベルフロー(この場合はレベル2)と関連するので、分離要素はこれらの終了タグに対して出力されない。
FIG. 3C shows the result of the
グラフ300(図3A)には、どのデータ要素が高位レベルデータ要素のタグ内にネストされたかの指示として分離要素を認識して、ワーク要素のそれぞれのフローを処理するよう構成された計算コンポーネント306、308、310が含まれる。レベル2のフローを処理する計算コンポーネント306、308は、出力フローをそれぞれの収集コンポーネント312、314に送る。収集コンポーネント312、314は、レベル2のフローを処理して分離要素を削除し、対応するデータ要素を収集して、レベル1のフローを提供する。次いで、結合コンポーネント320は、三つのフロー全てを処理して、グラフ300の他の部分での後の処理のために、それらを結合することができる。
The graph 300 (FIG. 3A) includes a
図4Aに、各々がトップ(ルート)レベルの「レベル1」、第二レベルの「レベル2」、および第三レベルの「レベル3」を有する一連のXML文書を処理するためのグラフ400の一部を示す。以下の二連のXML文書は、入力データセット402が提供するドキュメントのストリームの一部の実施例である。
FIG. 4A shows an example of a
図4Bに、上記二つのXML文書に適用されるプロシージャ330の結果を示す。レベル1と関連するフロー431は、「top」タグを有するトップレベルのXML要素からの属性値を持つデータ要素を提供する。レベル2と関連するフロー432は、「a」タグを有するXML要素からの属性値を持つデータ要素を提供する。レベル3と関連するフロー433は、「b」タグを有するXML要素からの属性値を持つデータ要素を提供する。本実施例では、正規化コンポーネント404は、トップレベル終了タグ毎にフロー432および433それぞれにレベル1の分離要素を挿入し、「a」終了タグ毎にフロー433にレベル2の分離要素を挿入する。「b」に対する終了タグは最下位レベルフロー(この場合はレベル3)と関連するので、分離要素はこれらの終了タグに対して出力されない。
FIG. 4B shows the result of the
再度図4Aを参照すると、三つの計算コンポーネント406、408、410は、それぞれフロー433、432、431を処理する。収集コンポーネント412は、レベル3のフロー431を処理してレベル2の分離要素を削除し、対応するデータ要素を収集してレベル2のフローを提供する。次いで、結合コンポーネント414は、得られたレベル2のフローを、計算コンポーネント408からのレベル2のフローと一緒に処理して、収集コンポーネント416に結合したフローを提供することができる。収集コンポーネント416は、レベル1の分離要素を削除し、次いで、結合コンポーネント420内で、計算コンポーネント410からのレベル1のフローと結合されるレベル1のフローを提供する。
Referring again to FIG. 4A, the three
非正規化コンポーネントが使用して、受け取った一つ以上のフローを処理し、XML文書(または、他の階層データ構造)を提供できるプロシージャは、正規化コンポーネントが実行する操作の逆とすることができる。非正規化コンポーネントは、フロー内の分離要素を別のフロー内の対応するデータ要素と一致させて、XML要素をネストさせる方法を特定することができる。例えば、レベルLの分離要素が一つ以上のデータ要素に続く場合、非正規化コンポーネントは、異なるフロー内の対応するレベルLのデータ要素を見つけることができ、その一つ以上のデータ要素をレベルLのデータ要素と対応するXML要素内でネストすることができる。 A procedure that can be used by a denormalization component to process one or more received flows and provide an XML document (or other hierarchical data structure) can be the reverse of the operations performed by the normalization component. it can. The denormalization component can match the separation element in a flow with the corresponding data element in another flow and specify how to nest XML elements. For example, if a level L separation element follows one or more data elements, the denormalization component can find a corresponding level L data element in a different flow, and the one or more data elements are It is possible to nest within XML elements corresponding to L data elements.
合成キー処理モードも場合によって幾つかの利点を有する。分離要素は合成キー処理モードでは不要である。所与のデータ要素には、所与のデータ要素の内の少なくとも親データ要素を一意に識別する合成キーが含まれる。例えば、データ要素のレコード構造には、合成キーの値を格納する特別なフィールドを含めることができる。階層構造内の関連性を再構築するには、各子データ要素内の親データ要素を識別するだけで十分であるが、合成キーは、オプションとして、階層内の任意の数の祖先を識別することができる。 Synthetic key processing modes also have some advantages in some cases. The separation element is not necessary in the synthetic key processing mode. A given data element includes a composite key that uniquely identifies at least the parent data element of the given data element. For example, the record structure of the data element can include a special field that stores the value of the composite key. To reconstruct the relationships in the hierarchy, it is sufficient to identify the parent data element in each child data element, but the composite key optionally identifies any number of ancestors in the hierarchy be able to.
合成キー処理モードはまた、メモリに全文書構造のコピーを格納することを必要とすることなく、入力データセット202からのXML文書を順次処理することにより、SAXパーサの利点の幾つかを提供する。合成キーは、幾つかのフロー(例えば、ツリーの深さと同じ数のフロー)内にXML文書のツリー構造の一部または全てを提供することにより、DOMパーサの利点の内の幾つかを提供することもできる。
The synthetic key processing mode also provides some of the advantages of a SAX parser by processing XML documents from the
合成キーはシーケンシャル値(例えば、数値)とすることができる。実装によっては、各新規データ要素が正規化コンポーネントにより処理されるときに、増加するシーケンシャルインデックス値として、合成キーの値をデータ要素に配置することができる。例えば、正規化コンポーネントは、インデックス値を割り当てるためにグローバルカウンタを維持することができる。階層内の各ノードは一意のインデックス値と関連付けられる。代替として、実装によっては、親ノードを一意に識別するのに全ての合成キーが一意である必要はない。各データ要素のレベルが既知の場合、合成キーの値は、階層の所与のレベルに対して一意とすることができるが、異なるレベルで再び現れてもよい。例えば、カウンタをレベル毎に維持することができ、所与のレベルのデータ要素に、そのレベル用のカウンタを用いて、インデックス値を割り当てることができる。所与のレベルに対してデータ要素が一意のインデックス値をもつ限り、親データ要素は、既知の親レベルおよびインデックス値の組合せにより一意に識別することができる。 The composite key can be a sequential value (eg, a numerical value). In some implementations, the value of the composite key can be placed in the data element as a sequential index value that increases as each new data element is processed by the normalization component. For example, the normalization component can maintain a global counter to assign index values. Each node in the hierarchy is associated with a unique index value. Alternatively, in some implementations, not all synthetic keys need to be unique to uniquely identify the parent node. If the level of each data element is known, the value of the composite key can be unique for a given level of the hierarchy, but may reappear at a different level. For example, a counter can be maintained for each level, and a data element at a given level can be assigned an index value using the counter for that level. As long as the data element has a unique index value for a given level, the parent data element can be uniquely identified by a known parent level and index value combination.
XML文書の以下の最初の部分は、合成キー処理モード内で処理されるべき入力データセット402が提供する文書の実施例である。この文書は、「top」タグを持つトップ(ルート)レベル、タグ「Head」および「Body」を持つ第二レベル、ならびにそれぞれの親データ要素のタグに依存するタグをもつ第三、第四および第五レベルを有する。
The following first part of the XML document is an example of the document provided by the
図4Cを参照すると、本実施例では、正規化コンポーネント404は、三連の異なるデータ要素をフロー441、442、443に提供する。フロー441には「Nose」タグを持つデータ要素が含まれる。フロー442には「Arm」タグを持つデータ要素が含まれる。フロー443には、「Finger」タグを持つデータ要素が含まれる。分離要素は本実施例では不要である。各データ要素には、少なくとも同一レベルの他のデータ要素間で一意のインデックス値が割り当てられる。各データ要素には、その親データ要素のインデックス値が含まれているので(親データ要素をもたないルートレベルのデータ要素を除く)、各データ要素が入力データセット402からの文書の階層内に属するように、インデックス値を用いて再構築することができる。データフローを受け取る後続のコンポーネントがインデックス値を読み出し、使用して、例えば、フロー間のデータを結合したり参照したりすることもできる。
Referring to FIG. 4C, in this example,
一実施例では、所与のデータ要素のレコード構造には、データ要素自身に割り当てられたインデックス値のためのフィールド、および親のデータ要素に割り当てられたインデックス値のためのフィールドが含まれる。図4Cでは、各データ要素は、自身のインデックス値および親のインデックス値「[own]/[parent]」でラベル付けされている。フロー443上のデータ要素には、所与の「Nose」データ要素の親の「Head」データ要素を一意に識別するインデックス値が含まれる。フロー442上のデータ要素には、所与の「Arm」データ要素の親の「Body」データ要素を一意に識別するインデックス値が含まれる。フロー441上のデータ要素には、所与の「Finger」データ要素の親の「Hand」データ要素を一意に識別するインデックス値が含まれる。別の実施例では、所与のデータ要素のレコード構造には、そのデータ要素自身に割り当てられたインデックス値のためのフィールド、およびルートレベルまでの祖先のデータ要素に割り当てられるインデックス値のためのフィールドが含まれる。図4Dでは、各データ要素は、それ自身のインデックス値およびその祖先のインデックス値「[own]/[parent]/.../[root]」でラベル付けされている。図4Cおよび図4Dの両実施例では、各データ要素の親のインデックスは、全てのフローに同一インデックスを含まなくても、そのデータ要素の階層内の位置を再構築するのに十分である。これにより、階層の幅が広がっても増大しないフロー内の効率的な階層表現が導かれる。図4Cの実施例では、各データ要素のためのインデックスフィールドのサイズは階層サイズによらず一定である。図4Dの実施例では、各データ要素のためのインデックスフィールドのサイズは階層の深さとともに増大するが、幅に対しては増大しない。
In one embodiment, the record structure of a given data element includes a field for the index value assigned to the data element itself and a field for the index value assigned to the parent data element. In FIG. 4C, each data element is labeled with its own index value and the parent index value “[own] / [parent]”. Data elements on flow 44 3 includes an index value that uniquely identifies the "Head" data element of the parent of a given "Nose" data element. The data elements on
正規化コンポーネント404は、フロー上出力される各データ要素内に組み込まれるべき任意の数の子孫データ要素を選択する能力を提供する。場合によっては、所与のノードと関連するデータ(例えば、属性値)だけがデータ要素として出力される。場合によっては、データ要素が文書の元の階層からの子孫ノードの完全または部分的なサブツリーを含めることができるようにする階層構造をデータ要素自体が含む。例えば、上記文書に対して、「Arm」タグのレベルと対応するデータ要素は、「Hand」および「Finger」タグと対応する閉じた子孫ノードの何れかに対するデータを含むこともできる。データ要素自体は階層構造を有するので、子孫ノードから組み込まれたデータに合成キーを割り当てる必要はない。
The
親または他の祖先ノードを識別するインデックスフィールドに加えて、オプションで親または他の祖先ノードからのデータをデータ要素に含めることができる。例えば、上記文書に対して、「Finger」タグのレベルと対応するデータ要素には、Fingerの「name」属性(例えば、name=”pinky”)だけでなく、Handの「state」属性(例えば、state=”fist”)およびArmの「side」属性(例えば、side=”right”)を含めることができる。場合によっては、祖先ノードからの情報を含めると、特定の結合操作を実行する必要をなくすことができる。 In addition to an index field that identifies a parent or other ancestor node, data elements can optionally include data from the parent or other ancestor node. For example, for the above document, the data element corresponding to the level of the “Finger” tag includes not only the “name” attribute of Finger (for example, name = “pinky”) but also the “state” attribute of Hand (for example, state = “fist”) and the “side” attribute of Arm (eg, side = “right”). In some cases, including information from an ancestor node can eliminate the need to perform a specific join operation.
図4Eに、合成キー処理モードでXML文書を処理して、文書からの属性値、およびXML文書の階層構造の保存を可能にする適切な合成キーを有するデータ要素のフローを提供するために、正規化コンポーネント404が使用する例示的プロシージャ450のフローチャートを示す。プロシージャ450は、新規のXML要素の開始タグを見つける度に「抽出」ステップ452で開始する再帰的プロシージャとして表されている。プロシージャ450は見つけたルートのXML要素(本実施例では、「レベル1」と関連する「top」タグを有する)に最初に適用される。コンポーネント404は見つけたXML要素の属性および何らかの非タグコンテンツを抽出し(452)、対応するフローのデータ要素に適切なフォーマットで一時的に格納する。コンポーネント404は、文書内で次の項目(新規の開始タグや終了タグであってもよい)を探す(454)。見つかったXML要素内で新規の開始タグがネストされているのが発見された場合、コンポーネント454はプロシージャ450を再帰的に適用する。終了タグが発見された場合、コンポーネント404は、終了タグの所与のレベルと関連する保存されたデータ要素を、その所与のレベルと関連するフロー内に出力する(456)よう進む。コンポーネント404は、親データ要素(もしあれば)を識別するデータ要素内にインデックス値も書き込む(457)。次いで、コンポーネント404は、何れかの開始プロシージャ呼出が残っている場合は再帰呼出を出る(458)か、または次の開始ルートタグを見つけるよう進む(460)。
In FIG. 4E, to process an XML document in synthetic key processing mode, to provide a flow of data elements with appropriate synthetic keys that allow the storage of attribute values from the document and the hierarchical structure of the XML document. 5 shows a flowchart of an
非正規化コンポーネントが使用して、受け取った一つ以上のフローを処理し、XML文書(または、他の階層データ構造)を提供できるプロシージャは、正規化コンポーネントが実行する操作の逆とすることができる。非正規化コンポーネントは、フロー内の合成キー値を別のフロー内の対応する合成キー値と突合して、XML要素をネストさせる方法を特定することができる。 A procedure that can be used by a denormalization component to process one or more received flows and provide an XML document (or other hierarchical data structure) can be the reverse of the operations performed by the normalization component. it can. A denormalized component can match a composite key value in a flow with a corresponding composite key value in another flow to identify how to nest XML elements.
本明細書で説明したデータフロー管理手法は、コンピュータ上で実行するためのソフトウエアを用いて実装することができる。例えば、本ソフトウエアは、プログラムされるか、またはプログラム可能な一つ以上のコンピューターシステム(分散型、クライアント/サーバ型、またはグリッド型等の各種アーキテクチャで構成されてもよい)上で実行される一つ以上のコンピュータープログラム内のプロシージャを形成し、そのコンピューターシステムはそれぞれ、少なくとも一つのプロセッサと、少なくとも一つのデータ格納システム(揮発性または不揮発性メモリおよび/またはストレージ素子を含む)と、少なくとも一つの入力装置またはポートと、少なくとも一つの出力装置またはポートとを備える。本ソフトウエアは、例えば、計算グラフの設計および構成に関連する他のサービスを提供する大規模プログラムの一つ以上のモジュールを形成してもよい。グラフのノードおよび要素は、コンピュータで読取り可能な媒体内に格納されたデータ構造、またはデータリポジトリ内に格納されたデータモデルに準拠する他の組織化されたデータとして実装することができる。 The data flow management techniques described herein can be implemented using software for execution on a computer. For example, the software is programmed or executed on one or more programmable computer systems (which may be configured in various architectures such as distributed, client / server, or grid). Forming procedures in one or more computer programs, each of which has at least one processor, at least one data storage system (including volatile or non-volatile memory and / or storage elements), and at least one One input device or port and at least one output device or port. The software may, for example, form one or more modules of a large program that provides other services related to the design and configuration of the computation graph. The nodes and elements of the graph can be implemented as data structures stored in a computer readable medium or other organized data that conforms to a data model stored in a data repository.
本ソフトウエアは、汎用または専用のプログラム可能コンピュータで読取り可能なCD−ROM等の格納媒体上で提供するか、または本ソフトウエアを実行するコンピュータにネットワーク等の通信媒体を介して配布(伝搬信号で符号化)してもよい。全ての機能は、専用コンピュータ、またはコプロセッサ等の専用ハードウエアを用いて実行してもよい。本ソフトウエアは、ソフトウエアが規定する異なる計算部分を異なるコンピュータで実行する分散型で実装してもよい。かかるコンピュータープログラムはそれぞれ、汎用または専用のプログラム可能コンピュータが読み取り可能な格納媒体または格納装置(例えば、固体メモリもしくは媒体、または磁気式もしくは光学式媒体)に格納するか、ダウンロードして、コンピューターシステムが格納媒体または格納装置を読み取って本明細書で説明したプロシージャを実行する際に、コンピュータを構成し、操作するのが好ましい。本発明のシステムは、コンピュータープログラムにより構成されるコンピュータで読み取り可能な格納媒体として実装されると考えてもよく、そのように構成された格納媒体により、コンピューターシステムを特定、かつ所定の方法で操作して、本明細書で説明した機能を実行してもよい。 The software is provided on a storage medium such as a CD-ROM that can be read by a general-purpose or dedicated programmable computer, or is distributed (propagation signal) to a computer executing the software via a communication medium such as a network. Encoding). All functions may be performed using a dedicated computer or dedicated hardware such as a coprocessor. The software may be implemented in a distributed manner in which different calculation parts defined by the software are executed on different computers. Each such computer program may be stored on or downloaded to a general purpose or special purpose programmable computer readable storage medium or storage device (eg, solid state memory or medium, or magnetic or optical medium) The computer is preferably configured and operated when reading the storage medium or storage device to perform the procedures described herein. The system of the present invention may be considered to be implemented as a computer-readable storage medium constituted by a computer program, and the computer system is specified and operated in a predetermined method by the storage medium thus configured. Then, the functions described in this specification may be executed.
本発明の幾つかの実施の態様を説明してきた。にもかかわらず、本発明の精神および範囲から逸脱することなく、各種の改変をなすことができるのは言うまでもない。例えば、上記ステップの幾つかは順序とは無関係なので、上記説明と異なる順序で実行してもよい。 Several embodiments of the present invention have been described. Nevertheless, it will be appreciated that various modifications may be made without departing from the spirit and scope of the invention. For example, some of the steps are irrelevant to the order, and may be executed in a different order from the above description.
言うまでもなく、上記説明は説明を目的としているだけであって、本発明の範囲を制限するものではなく、その範囲は添付の請求の範囲により定義される。例えば、上記の幾つかの機能ステップは、全体の処理に実質的に影響を与えずに、異なる順序で実行してもよい。他の実施の態様は以下のクレームの範囲内にある。 It will be appreciated that the above description is for illustrative purposes only and is not intended to limit the scope of the invention, which is defined by the appended claims. For example, some of the functional steps described above may be performed in a different order without substantially affecting the overall process. Other embodiments are within the scope of the following claims.
(関連出願のクロスリファレンス)
本願は、2007年9月20日出願の米国特許出願第60/973,979号の優先権を主張する。
(Cross-reference of related applications)
This application claims priority from US patent application Ser. No. 60 / 973,979, filed Sep. 20, 2007.
Claims (24)
各々のフローが前記階層のレベルと関連付けられる、データ要素の複数のフローを形成するステップと、
前記フローのうちの少なくとも幾つかに、前記階層のレベルと関連する階層構造情報を含めるステップであって、前記レベルのうちの少なくとも1つについて、二つ以上かつ全フロー数未満の前記フローに、そのレベルと関連する階層構造情報を含めるステップと、
を含む方法。 A method of processing a data element associated with a hierarchy including multiple levels,
Forming a plurality of flows of data elements, each flow being associated with a level of the hierarchy;
Including, in at least some of the flows, hierarchical structure information associated with the levels of the hierarchy, wherein at least one of the levels includes two or more and less than the total number of flows. Including hierarchical information associated with the level;
Including methods.
前記階層構造情報には、一つ以上のデータ要素の隣接するセットを分離する分離要素が含まれ、各分離要素は前記階層のレベルと関連付けられ、
前記レベルのうちの少なくとも一つについて、二つ以上かつ全フロー数未満の前記フローが、そのレベルと関連する分離要素を含む、方法。 The method of claim 1, comprising:
The hierarchical structure information includes separation elements that separate adjacent sets of one or more data elements, each separation element associated with a level of the hierarchy,
The method wherein for at least one of the levels, two or more and less than the total number of flows includes a separation element associated with the level.
前記分離要素に少なくとも一部は基づいて、階層データ構造内の前記データ要素の表現と、前記複数のフロー内の前記データ要素の表現との間での変換を行うステップを更に含む、方法。 The method of claim 2, comprising:
A method further comprising converting between a representation of the data element in a hierarchical data structure and a representation of the data element in the plurality of flows based at least in part on the separation element.
前記階層データ構造がマークアップ言語によりフォーマットされる、方法。 The method of claim 3, comprising:
The method wherein the hierarchical data structure is formatted with a markup language.
前記マークアップ言語がXMLである、方法。 The method of claim 4, comprising:
The method, wherein the markup language is XML.
前記階層データ構造がプログラミング言語によりフォーマットされる、方法。 The method of claim 3, comprising:
The method wherein the hierarchical data structure is formatted with a programming language.
前記プログラミング言語がPL/I、COBOL、またはIMSである、方法。 The method of claim 6, comprising:
The method, wherein the programming language is PL / I, COBOL, or IMS.
前記表現の間での変換を行うステップには、前記階層データ構造内の前記データ要素の表現から前記複数のフロー内の前記データ要素の表現への変換を行うステップが含まれる、方法。 The method of claim 3, comprising:
The method of converting between the representations includes converting from a representation of the data elements in the hierarchical data structure to a representation of the data elements in the plurality of flows.
データ要素の複数のフローを形成するステップには、
前記階層データ構造から、第一レベルと関連する第一データ要素を抽出するステップと、
前記第一データ要素と対応する前記階層データ構造の一部内にネストされた第二レベルと関連する一つ以上のデータ要素を抽出するステップと、
前記第二レベルと関連するフロー内に、前記第二レベルと関連する、前記抽出されたデータ要素のうちの少なくとも幾つかを含めるステップと、
前記第一レベルと関連するフロー内に前記第一データ要素を含め、前記第二レベルと関連する前記フロー内に前記第一レベルと関連する、対応する分離要素を含めるステップと、
が含まれる、方法。 The method according to claim 8, comprising:
The steps to form multiple flows of data elements include
Extracting a first data element associated with a first level from the hierarchical data structure;
Extracting one or more data elements associated with a second level nested within a portion of the hierarchical data structure corresponding to the first data element;
Including in the flow associated with the second level at least some of the extracted data elements associated with the second level;
Including the first data element in a flow associated with the first level and including a corresponding separation element associated with the first level in the flow associated with the second level;
Include the method.
データ要素の複数のフローを形成するステップには、
複数の階層データ構造のストリームを受け取るするステップと、
階層データ構造毎に、
前記階層データ構造からデータ要素を抽出するステップであって、各データ要素は対応するレベルと関連付けられるステップと、
親データ要素と対応する前記階層データ構造の一部内にネストされた一つ以上の子データ要素の所与のセットに対して、
前記子データ要素と対応するレベルと関連するフロー内に、前記子データ要素のセットおよび分離要素を含めるステップと、
前記親データ要素と対応するレベルと関連するフロー内に前記親データ要素を含めるステップと、
が含まれる、方法。 The method according to claim 8, comprising:
The steps to form multiple flows of data elements include
Receiving a stream of multiple hierarchical data structures;
For each hierarchical data structure,
Extracting data elements from the hierarchical data structure, each data element being associated with a corresponding level;
For a given set of one or more child data elements nested within a portion of the hierarchical data structure corresponding to a parent data element,
Including the set of child data elements and a separation element in a flow associated with a level corresponding to the child data elements;
Including the parent data element in a flow associated with a level corresponding to the parent data element;
Include the method.
前記含められた分離要素が前記親データ要素と対応するレベルと関連付けられる、方法。 The method of claim 10, comprising:
The method wherein the included separation element is associated with a level corresponding to the parent data element.
前記表現の間での変換を行うステップには、前記複数のフロー内の前記データ要素の表現から前記階層データ構造内の前記データ要素の表現への変換を行うステップが含まれる、方法。 The method of claim 3, comprising:
The method of converting between the representations includes converting from representations of the data elements in the plurality of flows to representations of the data elements in the hierarchical data structure.
第一レベルと関連するフローから第一データ要素を受け取るステップと、
第二レベルと関連するフローから、前記第一レベルと関連する一つ以上のデータ要素および分離要素を受け取るステップと、
前記階層データ構造の一部に前記第一データ要素を含めるステップと、
前記第一データ要素を含む前記階層データ構造の一部内にネストされた前記第二レベルと関連するフローから受け取った前記データ要素のうち少なくとも幾つかを含めるステップと、
を更に含む、方法。 The method of claim 12, comprising:
Receiving a first data element from a flow associated with the first level;
Receiving, from a flow associated with a second level, one or more data elements and separation elements associated with said first level;
Including the first data element in a portion of the hierarchical data structure;
Including at least some of the data elements received from a flow associated with the second level nested within a portion of the hierarchical data structure that includes the first data elements;
The method further comprising:
複数の階層データ構造のストリームを生成するステップを更に含み、
階層データ構造毎に、
前記所与のレベルと関連するフローから所与のレベルと関連するデータ要素を受け取るステップと、
第一レベルと関連するフローから受け取ったデータ要素毎に、
前記階層データ構造の一部に前記受け取ったデータ要素を含めるステップと、
他のレベルと関連するフロー内の分離要素に基づいて、前記他のレベルと関連する一つ以上のデータ要素の対応するセットが存在するかどうかを特定するステップと、
前記対応する受け取ったデータ要素を含む前記階層データ構造の一部内にネストされた一つ以上のデータ要素の対応する各セットを含めるステップと、
が含まれる、方法。 The method of claim 12, comprising:
Further comprising generating a stream of a plurality of hierarchical data structures;
For each hierarchical data structure,
Receiving a data element associated with a given level from a flow associated with the given level;
For each data element received from the flow associated with the first level,
Including the received data element in a portion of the hierarchical data structure;
Identifying whether there is a corresponding set of one or more data elements associated with the other level based on separation elements in the flow associated with the other level;
Including each corresponding set of one or more data elements nested within a portion of the hierarchical data structure that includes the corresponding received data elements;
Include the method.
前記他のレベルと関連するフロー内の前記分離要素は前記第一レベルと関連付けられる、方法。 15. A method according to claim 14, comprising
The method, wherein the separation element in a flow associated with the other level is associated with the first level.
前記階層構造情報には、前記階層のレベルの複数のデータ要素のうちの少なくとも一つのデータ要素を一意に識別する、少なくとも幾つかのデータ要素内に含まれる一つ以上のインデックス値が含まれ、各インデックス値は前記階層のレベルと関連付けられ、
前記レベルのうちの少なくとも一つについて、二つ以上かつ全フロー数未満の前記フローに、そのレベルと関連するインデックス値が含まれる、方法。 The method of claim 1, comprising:
The hierarchical structure information includes one or more index values included in at least some data elements that uniquely identify at least one data element of the plurality of data elements at the level of the hierarchy, Each index value is associated with a level of the hierarchy,
The method wherein for at least one of the levels, two or more and less than the total number of flows includes an index value associated with that level.
少なくとも幾つかのデータ要素には、前記階層に従って親データ要素を一意に識別するインデックス値が含まれる、方法。 The method according to claim 16, comprising:
The method wherein at least some of the data elements include an index value that uniquely identifies a parent data element according to the hierarchy.
前記インデックス値に少なくとも一部は基づいて、階層データ構造内の前記データ要素の表現と前記複数のフロー内の前記データ要素の表現との間での変換を行うステップが更に含まれる、方法。 The method according to claim 16, comprising:
The method further includes converting between the representation of the data element in a hierarchical data structure and the representation of the data element in the plurality of flows based at least in part on the index value.
前記階層データ構造がマークアップ言語によりフォーマットされる、方法。 The method according to claim 18, comprising:
The method wherein the hierarchical data structure is formatted with a markup language.
前記マークアップ言語がXMLである、方法。 20. The method according to claim 19, comprising
The method, wherein the markup language is XML.
前記階層データ構造がプログラミング言語によりフォーマットされる、方法。 The method according to claim 18, comprising:
The method wherein the hierarchical data structure is formatted with a programming language.
前記プログラミング言語がPL/I、COBOL、またはIMSである、方法。 The method of claim 21, comprising:
The method, wherein the programming language is PL / I, COBOL, or IMS.
各々のフローが前記階層のレベルと関連付けられる、データ要素の複数のフローを形成する手段と、
前記フローのうちの少なくとも幾つかに、前記階層のレベルと関連する階層構造情報を含める手段とを含み、
前記レベルのうちの少なくとも一つについて、二つ以上かつ全フロー数未満の前記フローに、そのレベルと関連する階層構造情報が含まれる、
システム。 A system for processing data elements associated with hierarchies containing multiple levels,
Means for forming a plurality of flows of data elements, each flow being associated with a level of the hierarchy;
Means for including in at least some of the flows hierarchical structure information associated with levels of the hierarchy;
For at least one of the levels, the flow having two or more and less than the total number of flows includes hierarchical structure information related to the level.
system.
各々のフローが前記階層のレベルと関連付けられるデータ要素の複数のフローを形成させる命令と、
前記フローのうちの少なくとも幾つかのに、前記階層のレベルと関連する階層構造情報を含めさせる命令と、
を含み、
前記レベルのうちの少なくとも一つについて、二つ以上かつ全フロー数未満の前記フローに、そのレベルと関連する階層構造情報が含まれる、
コンピュータで読取り可能な媒体。 A computer readable medium storing a computer program for processing a specification of a graph-based calculation, the computer program being stored in a computer,
Instructions for forming a plurality of flows of data elements, each flow associated with a level of the hierarchy;
Instructions for causing at least some of the flows to include hierarchical structure information associated with levels of the hierarchy;
Including
For at least one of the levels, the flow having two or more and less than the total number of flows includes hierarchical structure information related to the level.
A computer-readable medium.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97397907P | 2007-09-20 | 2007-09-20 | |
US60/973,979 | 2007-09-20 | ||
PCT/US2008/076981 WO2009039352A1 (en) | 2007-09-20 | 2008-09-19 | Managing data flows in graph-based computations |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010541048A true JP2010541048A (en) | 2010-12-24 |
JP5453273B2 JP5453273B2 (en) | 2014-03-26 |
Family
ID=40468369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010525993A Active JP5453273B2 (en) | 2007-09-20 | 2008-09-19 | Data flow management in graph-based calculations |
Country Status (9)
Country | Link |
---|---|
US (1) | US8954482B2 (en) |
EP (1) | EP2191362B1 (en) |
JP (1) | JP5453273B2 (en) |
KR (1) | KR101572599B1 (en) |
CN (1) | CN101884024B (en) |
AU (1) | AU2008302144B2 (en) |
CA (1) | CA2698265C (en) |
HK (1) | HK1140036A1 (en) |
WO (1) | WO2009039352A1 (en) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877350B2 (en) | 2005-06-27 | 2011-01-25 | Ab Initio Technology Llc | Managing metadata for graph-based computations |
CA2965896C (en) * | 2007-07-26 | 2020-01-07 | Ab Initio Technology Llc | Transactional graph-based computation with error handling |
CN102232212B (en) | 2008-12-02 | 2015-11-25 | 起元技术有限责任公司 | The example of mapping (enum) data collection in data management system |
CA2750479C (en) * | 2009-02-13 | 2019-03-12 | Ab Initio Technology Llc | Communicating with data storage systems |
WO2010093879A1 (en) * | 2009-02-13 | 2010-08-19 | Ab Initio Technology Llc | Managing task execution |
US8205113B2 (en) | 2009-07-14 | 2012-06-19 | Ab Initio Technology Llc | Fault tolerant batch processing |
AU2010295547B2 (en) * | 2009-09-16 | 2015-05-07 | Ab Initio Technology Llc | Mapping dataset elements |
US8667329B2 (en) * | 2009-09-25 | 2014-03-04 | Ab Initio Technology Llc | Processing transactions in graph-based applications |
AU2010337218B2 (en) * | 2009-12-14 | 2015-09-24 | Ab Initio Technology Llc | Specifying user interface elements |
US9665620B2 (en) * | 2010-01-15 | 2017-05-30 | Ab Initio Technology Llc | Managing data queries |
CN103069385B (en) * | 2010-06-15 | 2016-12-28 | 起元技术有限责任公司 | System and method for dynamic load calculating based on figure |
EP2633398B1 (en) | 2010-10-25 | 2020-05-27 | Ab Initio Technology LLC | Managing data set objects in a dataflow graph that represents a computer program |
WO2012097278A1 (en) | 2011-01-14 | 2012-07-19 | Ab Initio Technology Llc | Managing changes to collections of data |
US9021299B2 (en) | 2011-02-18 | 2015-04-28 | Ab Initio Technology Llc | Restarting processes |
US9116759B2 (en) | 2011-02-18 | 2015-08-25 | Ab Initio Technology Llc | Restarting data processing systems |
US9116955B2 (en) | 2011-05-02 | 2015-08-25 | Ab Initio Technology Llc | Managing data queries |
AU2013295864B2 (en) | 2012-07-24 | 2017-09-14 | Ab Initio Technology Llc | Mapping entities in data models |
US10489360B2 (en) | 2012-10-17 | 2019-11-26 | Ab Initio Technology Llc | Specifying and applying rules to data |
US10108521B2 (en) | 2012-11-16 | 2018-10-23 | Ab Initio Technology Llc | Dynamic component performance monitoring |
US9507682B2 (en) | 2012-11-16 | 2016-11-29 | Ab Initio Technology Llc | Dynamic graph performance monitoring |
US9274926B2 (en) | 2013-01-03 | 2016-03-01 | Ab Initio Technology Llc | Configurable testing of computer programs |
US9811233B2 (en) | 2013-02-12 | 2017-11-07 | Ab Initio Technology Llc | Building applications for configuring processes |
US9639631B2 (en) * | 2013-02-27 | 2017-05-02 | Cellco Partnership | Converting XML to JSON with configurable output |
US9588956B2 (en) | 2013-07-12 | 2017-03-07 | Ab Initio Technology Llc | Parser generation |
EP4375833A3 (en) | 2013-12-05 | 2024-07-31 | AB Initio Technology LLC | Managing interfaces for dataflow graphs composed of sub-graphs |
CA3092699C (en) | 2013-12-06 | 2023-07-25 | Ab Initio Technology Llc | Source code translation |
AU2015229005A1 (en) | 2014-03-14 | 2016-09-01 | Ab Initio Technology Llc | Mapping attributes of keyed entities |
EP3195114B1 (en) | 2014-07-18 | 2020-04-01 | AB Initio Technology LLC | Managing lineage information |
WO2016014615A1 (en) | 2014-07-24 | 2016-01-28 | Ab Initio Technology Llc | Data lineage summarization |
US9933918B2 (en) * | 2014-09-02 | 2018-04-03 | Ab Initio Technology Llc | Specifying control and data connections in graph-based programs |
KR102375349B1 (en) | 2014-09-02 | 2022-03-16 | 아브 이니티오 테크놀로지 엘엘시 | Managing execution state of components in a graph-based program specification for controlling their associated tasks |
US9760406B2 (en) | 2014-09-02 | 2017-09-12 | Ab Initio Technology Llc | Controlling data processing tasks |
US9626393B2 (en) | 2014-09-10 | 2017-04-18 | Ab Initio Technology Llc | Conditional validation rules |
US10055333B2 (en) | 2014-11-05 | 2018-08-21 | Ab Initio Technology Llc | Debugging a graph |
US10437819B2 (en) | 2014-11-14 | 2019-10-08 | Ab Initio Technology Llc | Processing queries containing a union-type operation |
WO2016130615A1 (en) * | 2015-02-11 | 2016-08-18 | Ab Initio Technology Llc | Filtering data lineage diagrams |
SG11201706228UA (en) | 2015-02-11 | 2017-08-30 | Ab Initio Technology Llc | Filtering data lineage diagrams |
US10417281B2 (en) | 2015-02-18 | 2019-09-17 | Ab Initio Technology Llc | Querying a data source on a network |
US10657134B2 (en) | 2015-08-05 | 2020-05-19 | Ab Initio Technology Llc | Selecting queries for execution on a stream of real-time data |
EP3335116A1 (en) * | 2015-08-11 | 2018-06-20 | AB Initio Technology LLC | Data processing graph compilation |
CA3114779C (en) | 2015-12-21 | 2023-03-07 | Ab Initio Technology Llc | Sub-graph interface generation |
US11423083B2 (en) | 2017-10-27 | 2022-08-23 | Ab Initio Technology Llc | Transforming a specification into a persistent computer program |
US11093223B2 (en) | 2019-07-18 | 2021-08-17 | Ab Initio Technology Llc | Automatically converting a program written in a procedural programming language into a dataflow graph and related systems and methods |
JP2024505238A (en) | 2021-01-31 | 2024-02-05 | アビニシオ テクノロジー エルエルシー | Data processing system with operations on logical dataset groups |
CN114373173A (en) * | 2022-01-12 | 2022-04-19 | 中国平安人寿保险股份有限公司 | Data processing method and device, terminal equipment and storage medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0713958A (en) * | 1993-06-24 | 1995-01-17 | Nippon Telegr & Teleph Corp <Ntt> | Execution controller for data flow computer |
WO2004034322A1 (en) * | 2002-10-10 | 2004-04-22 | Ab Initio Software Corporation | Startup and control of graph-based computation |
JP2004178084A (en) * | 2002-11-25 | 2004-06-24 | Systems Engineering Constructions Co Ltd | Method, device and program for storing xml data, and recording medium with program recorded thereon |
US20040168124A1 (en) * | 2001-06-07 | 2004-08-26 | Michael Beisiegel | System and method of mapping between software objects & structured language element-based documents |
US20040239674A1 (en) * | 2003-06-02 | 2004-12-02 | Microsoft Corporation | Modeling graphs as XML information sets and describing graphs with XML schema |
WO2007002281A2 (en) * | 2005-06-27 | 2007-01-04 | Ab Initio Software Corporation | Aggregating data with complex operations |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5966072A (en) * | 1996-07-02 | 1999-10-12 | Ab Initio Software Corporation | Executing computations expressed as graphs |
US6175830B1 (en) * | 1999-05-20 | 2001-01-16 | Evresearch, Ltd. | Information management, retrieval and display system and associated method |
US6584581B1 (en) * | 1999-12-06 | 2003-06-24 | Ab Initio Software Corporation | Continuous flow checkpointing data processing |
US7164422B1 (en) * | 2000-07-28 | 2007-01-16 | Ab Initio Software Corporation | Parameterized graphs with conditional components |
US7370272B2 (en) * | 2001-04-14 | 2008-05-06 | Siebel Systems, Inc. | Data adapter |
ATE515746T1 (en) * | 2003-09-15 | 2011-07-15 | Ab Initio Technology Llc | DATA PROFILING |
US20050286512A1 (en) * | 2004-06-28 | 2005-12-29 | Atul Mahamuni | Flow processing |
US7899833B2 (en) * | 2004-11-02 | 2011-03-01 | Ab Initio Technology Llc | Managing related data objects |
CN100392659C (en) * | 2006-04-10 | 2008-06-04 | 浙江大学 | Mobile terminal WAP browser based analyzer realization method |
US7870556B2 (en) * | 2006-05-16 | 2011-01-11 | Ab Initio Technology Llc | Managing computing resources in graph-based computations |
CN101501678B (en) * | 2006-08-10 | 2013-10-16 | 起元科技有限公司 | Distributing services in graph-based computations |
US8069129B2 (en) * | 2007-04-10 | 2011-11-29 | Ab Initio Technology Llc | Editing and compiling business rules |
-
2008
- 2008-09-19 CN CN200880108246.3A patent/CN101884024B/en active Active
- 2008-09-19 CA CA2698265A patent/CA2698265C/en active Active
- 2008-09-19 KR KR1020107007441A patent/KR101572599B1/en active IP Right Grant
- 2008-09-19 EP EP08832512.1A patent/EP2191362B1/en active Active
- 2008-09-19 AU AU2008302144A patent/AU2008302144B2/en active Active
- 2008-09-19 JP JP2010525993A patent/JP5453273B2/en active Active
- 2008-09-19 US US12/234,566 patent/US8954482B2/en active Active
- 2008-09-19 WO PCT/US2008/076981 patent/WO2009039352A1/en active Application Filing
-
2010
- 2010-07-06 HK HK10106573.0A patent/HK1140036A1/en unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0713958A (en) * | 1993-06-24 | 1995-01-17 | Nippon Telegr & Teleph Corp <Ntt> | Execution controller for data flow computer |
US20040168124A1 (en) * | 2001-06-07 | 2004-08-26 | Michael Beisiegel | System and method of mapping between software objects & structured language element-based documents |
WO2004034322A1 (en) * | 2002-10-10 | 2004-04-22 | Ab Initio Software Corporation | Startup and control of graph-based computation |
JP2004178084A (en) * | 2002-11-25 | 2004-06-24 | Systems Engineering Constructions Co Ltd | Method, device and program for storing xml data, and recording medium with program recorded thereon |
US20040239674A1 (en) * | 2003-06-02 | 2004-12-02 | Microsoft Corporation | Modeling graphs as XML information sets and describing graphs with XML schema |
WO2007002281A2 (en) * | 2005-06-27 | 2007-01-04 | Ab Initio Software Corporation | Aggregating data with complex operations |
Also Published As
Publication number | Publication date |
---|---|
CA2698265A1 (en) | 2009-03-26 |
AU2008302144A1 (en) | 2009-03-26 |
CA2698265C (en) | 2017-08-29 |
US8954482B2 (en) | 2015-02-10 |
KR20100061720A (en) | 2010-06-08 |
WO2009039352A1 (en) | 2009-03-26 |
CN101884024B (en) | 2016-03-30 |
EP2191362B1 (en) | 2015-08-19 |
HK1140036A1 (en) | 2010-09-30 |
JP5453273B2 (en) | 2014-03-26 |
US20090083313A1 (en) | 2009-03-26 |
AU2008302144B2 (en) | 2014-09-11 |
EP2191362A1 (en) | 2010-06-02 |
CN101884024A (en) | 2010-11-10 |
EP2191362A4 (en) | 2014-03-26 |
KR101572599B1 (en) | 2015-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5453273B2 (en) | Data flow management in graph-based calculations | |
AU2019213302B2 (en) | Filtering data lineage diagrams | |
Gu et al. | XSLT transformation from UML models to LQN performance models | |
Xiong et al. | Towards automatic model synchronization from model transformations | |
KR102186050B1 (en) | Source code translation | |
Ide et al. | GrAF: A graph-based format for linguistic annotations | |
US8438534B2 (en) | Transformation of data between hierarchical data formats | |
CN115136113A (en) | Editor for generating computation graph | |
KR20210025024A (en) | System and method for data flow graph optimization | |
US7779047B2 (en) | Pluggable merge patterns for data access services | |
WO2014152800A1 (en) | Project planning and debugging from functional decomposition | |
Malik et al. | Sketching distributed data provenance | |
CN107239492A (en) | XML document is converted to the method and device that object, object are converted to XML document | |
de Boer et al. | Enterprise architecture analysis with xml | |
Burgueño et al. | On the concurrent execution of model transformations with linda | |
Zou et al. | Lachesis: automatic partitioning for UDF-centric analytics | |
Zaragoza et al. | Leveraging the layered architecture for microservice recovery | |
Ogunyomi et al. | Incremental execution of model-to-text transformations using property access traces | |
Wu et al. | NF-SS: A normal form for semistructured schema | |
Ivkovic et al. | Towards automatic establishment of model dependencies using formal concept analysis | |
CN100472512C (en) | Processing documents in multiple markup representations | |
Vankov et al. | Coding Basics | |
dos Santos Rocha | Data Integration Solution in an Heterogeneous Environment | |
DiLorenzo | Domain-Specific Languages for Ad Hoc Data Processing | |
Wenger | Design and implementation of a compiler for a fog and IoT programming language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110804 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120323 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130123 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130422 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130430 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130522 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131112 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5453273 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |