JP6479885B2 - ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定 - Google Patents

ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定 Download PDF

Info

Publication number
JP6479885B2
JP6479885B2 JP2017089982A JP2017089982A JP6479885B2 JP 6479885 B2 JP6479885 B2 JP 6479885B2 JP 2017089982 A JP2017089982 A JP 2017089982A JP 2017089982 A JP2017089982 A JP 2017089982A JP 6479885 B2 JP6479885 B2 JP 6479885B2
Authority
JP
Japan
Prior art keywords
component
graph
data
port
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017089982A
Other languages
English (en)
Other versions
JP2017168119A (ja
Inventor
クレイグ ダブリュー. スタンフィル
クレイグ ダブリュー. スタンフィル
アダム ワイス
アダム ワイス
アンドリュー エフ. ロバーツ
アンドリュー エフ. ロバーツ
ステファン エー. クコリッチ
ステファン エー. クコリッチ
Original Assignee
アビニシオ テクノロジー エルエルシー
アビニシオ テクノロジー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アビニシオ テクノロジー エルエルシー, アビニシオ テクノロジー エルエルシー filed Critical アビニシオ テクノロジー エルエルシー
Publication of JP2017168119A publication Critical patent/JP2017168119A/ja
Application granted granted Critical
Publication of JP6479885B2 publication Critical patent/JP6479885B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • G06F9/45508Runtime interpretation or emulation, e g. emulator loops, bytecode interpretation
    • G06F9/45512Command shells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/10Requirements analysis; Specification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/43Checking; Contextual analysis
    • G06F8/433Dependency analysis; Data or control flow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4494Execution paradigms, e.g. implementations of programming paradigms data driven
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/45Exploiting coarse grain parallelism in compilation, i.e. parallelism between groups of instructions
    • G06F8/456Parallelism detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Stored Programmes (AREA)
  • User Interface Of Digital Computer (AREA)
  • Devices For Executing Special Programs (AREA)
  • Image Generation (AREA)

Description

関連出願の相互参照
本出願は、2014年9月2日に出願した米国特許出願第62/044,708号明細書及び2015年5月20日に出願した米国特許出願第62/164,175号明細書の優先権を主張するものである。
この説明は、グラフに基づくプログラム内の構成要素を限定する手法に関する。
データフローの計算の1つの手法は、グラフのノード(頂点)に対応する計算構成要素がグラフ(「データフローグラフ」と呼ばれる)のリンク(有向辺)に対応するデータフローによって接続されるグラフに基づく表現を利用する。データフローリンクによって上流の構成要素に接続された下流の構成要素は、入力データ要素の順序付けられたストリームを受け取り、受け取られた順序で入力データ要素を処理し、出力データ要素の1又は2以上の対応するフローを生じさせていてもよい。そのようなグラフに基づく計算を実行するためのシステムは、参照により本明細書に組み込まれる「EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS」と題された先行米国特許第5,966,072号明細書に説明されている。その先行特許において説明された手法に関連する1つの実装形態においては、各構成要素が、通常は複数のコンピュータサーバのうちの1つでホストされるプロセスとして実装される。各コンピュータサーバは、いつでもアクティブな複数のそのような構成要素のプロセスを有する可能性があり、オペレーティングシステム(例えば、Unix)のスケジューラが、そのサーバでホストされる構成要素の間にリソース(例えば、プロセッサ時間及び/又はプロセッサコア)を分配する。そのような実装形態においては、構成要素間のデータフローが、オペレーティングシステムのデータ通信サービス及びサーバを接続するデータネットワーク(例えば、名前付きパイプ、TCP/IPセッションなど)を使用して実装される可能性がある。概して、構成要素のサブセットが、計算全体からの、例えば、データファイル、データベーステーブル、及び外部データフローへの及び/又はからのデータのソース及び/又はシンクとして働く。例えば、調整プロセスによって構成要素のプロセス及びデータフローが確立された後、データは、概して、各構成要素における入力データの可用性及び構成要素の各々のための計算リソースのスケジューリングによって律せられるグラフとして表現される計算を実施する計算システム全体を流れる。したがって、少なくとも、異なる構成要素が(同じ又は異なるサーバコンピュータ又はプロセッサコアでホストされる)異なるプロセスによって並列に実行されることを可能にすることによって、並列処理が実現される可能性があり、異なる構成要素がデータフローグラフの異なる経路上で並列に実行されることは本明細書において構成要素並列処理(component parallelism)と呼ばれ、異なる構成要素がデータフローグラフの同じ経路の異なる部分
において並列に実行されることは本明細書においてパイプライン並列処理(pipeline parallelism)と呼ばれる。
その他の形態の並列処理も、そのような手法によってサポートされる。例えば、それぞれの部分がデータセットのレコードを処理する構成要素の別々のコピーに送られるようにして、入力データセットが例えばデータセットのレコードのフィールドの値の区分けに従って区分けされる可能性がある。構成要素のそのような別々のコピー(又は「インスタンス」)は、別々のサーバコンピュータ又はサーバコンピュータの別々のプロセッサコア上で実行され、それによって、本明細書においてデータ並列処理(data parallelism)と呼ばれるものを実現し得る。別々の構成要素の結果は、単一のデータフロー又はデータセッ
トを再び形成するために合併される可能性がある。構成要素のインスタンスを実行するために使用されるコンピュータ又はプロセッサコアの数は、データフローグラフが作られるときに作成者によって指定される。
そのような手法の効率を改善するために、さまざまな手法が使用され得る。例えば、構成要素の各インスタンスは、例えば、1つのオペレーティングシステムのプロセスを使用して複数の構成要素(例えば、より大きなグラフの接続された部分グラフを形成する構成要素)を実装することによって、必ずしも独自のオペレーティングシステムのプロセスでホストされなくてもよい。
上述の手法の少なくとも一部の実装形態は、基礎を成すコンピュータサーバ上での結果として得られるプロセスの実行の効率に関連する制限を受ける。例えば、制限は、データ並列処理の度合いを変更するため、さまざまな構成要素をホストするサーバに変更するため、及び/又は異なる計算リソースに対する負荷を分散するために、グラフの実行されているインスタンスを再構成することの難しさに関連する可能性がある。既存のグラフに基づく計算システムは、余りにも多くのプロセスが不必要に開始され、大量のメモリを浪費することが原因であることが多い遅い起動時間にも見舞われる。概して、プロセスは、グラフの実行の開始時に始まり、グラフの実行が完了するときに終わる。
計算全体が、より小さな部分に分割され、部分が、1つのマスタコンピュータサーバから、計算をそれぞれが独立して実行し、それらの結果をマスタサーバに返すさまざまなその他の(例えば、「スレーブ」)コンピュータサーバに分散される、計算を分散させるためのその他のシステムが、使用されてきた。そのような手法の一部は、「グリッドコンピューティング」と呼ばれる。しかし、そのような手法は、概して、計算の部分を呼び出すマスタコンピュータサーバを介する以外に、それらの部分の間でデータを受け渡すか又は部分の実行をスケジューリングする及び/若しくは順番に並べるためのメカニズムを提供せず、それぞれの計算の独立性に依存する。したがって、そのような手法は、複数の構成要素の間のインタラクションを伴う計算をホストすることに対する直接的で効率的な解決策を提供しない。
大きなデータセットに対する分散された計算のための別の手法は、例えば、Apache Hadoop(登録商標)システムにおいて具現化されるMapReduceフレームワークを利用する。概して、Hadoopは、それぞれの命名されたファイルに関する部分が分散される分散型ファイルシステムを有する。ユーザは、2つの関数、すなわち、命名された入力のすべての部分に分散された方法で実行されるMap関数と、Map関数の実行の出力の一部に対して実行されるReduce関数とによって計算を規定する。Map関数の実行
の出力は、区分され、再び分散型ファイルシステム内の中間部分に記憶される。それから、Reduce関数が、中間部分を処理し、計算全体の結果を与えるために分散された方法で実行される。MapReduceフレームワークにおいて表現可能であり、入力及び出力がmap−reduceフレームワークのファイルシステム内に記憶するために修正可能である計算は効率的に実行され得るが、多くの計算は、このフレームワークに合わない及び/又はすべてのそれらの計算の入力及び出力を分散型ファイルシステム内に持つように容易に適応されない。
米国特許第5,966,072号明細書
概して、構成要素(又は構成要素の並列に実行されるコピー)が異なるサーバでホストされる上述の手法と比べて、基礎を成す仕様がグラフによる計算の計算効率を高める(例えば、所与の計算リソースの単位毎に処理されるレコードの数を増やす)ニーズが存在する。さらに、変化する計算リソース及び要件に適応することができることが望ましい。1若しくは2以上のグラフに基づく計算の実行中に利用可能である計算リソースの変化、及び/又は例えば処理されているデータの特徴が原因であるそのような計算の異なる構成要素の計算負荷の変化若しくは負荷の時間変化に適応することを可能にする計算手法を提供するニーズも存在する。例えば、サーバ毎に異なる数のプロセッサ、プロセッサ毎に異なる数のプロセッサコアなどを有するサーバを使用して、異なる特徴を有する計算リソースを効率的に利用することができ、同種の環境と異種の環境との両方を効率的にサポートすることができる計算手法を提供するニーズも存在する。グラフに基づく計算の開始を迅速にする望みも存在する。そのような効率及び適応性を提供する1つの態様は、(設計時に)グラフを作成するときに作成者によって行われる選択と、(コンパイル時に)コンパイラによって行われるアクションと、(ランタイムで)ランタイムシステムによって行われるアクションとの間の適切な分離及び抽象の壁(abstraction barrier)を提供すること
である。
一部の例において、プログラムは、例えば、グラフィカルユーザインターフェース内で有向リンクが線又は矢印として表され、ノードがボックス又はその他の決まった形(例えば、長方形、円など)として表されるようにして、例えば、グラフに基づく仕様のノード及び有向リンクが図式的オブジェクトを表している視覚的プログラミング環境内でグラフに基づく形態で直接規定される。用語「視覚的」は、環境内でのプログラムの要素の視覚的表現の使用を指すために使用され、一方、「グラフに基づく」は、図式的に表現され得るノード及びリンクの使用を指すために使用されることに留意されたい。本明細書においては、グラフに基づく計算の「視覚的表現」が、計算を表すグラフのノード及びリンクを表す図式的オブジェクトを含むことを理解されたい。しかし、グラフに基づく仕様は必ずしも視覚的に表されなくてもよく、視覚的プログラミング環境はグラフのノード及び/又はリンクを表す図式的オブジェクトを使用するとは限らないことに留意されたい。
グラフに基づくプログラムの仕様のためのいくつかの視覚的プログラミング環境が、今日使用されている。例えば、Ab Initio Software Corporation社のCo>Operating System
、National Instruments Corporation社のLabVIEW、及びThe Mathworks, Inc.社のSimulinkが、コンパイルされるか又は直接実行されるグラフに基づく計算をプログラマが規定することを可能にする視覚的プログラミング環境を提供する。
グラフに基づくプログラムの視覚的な仕様の一部の例において、仕様の構文は比較的単純である。例えば、データフロー計算の仕様においては、リンクが、データレコードの順序付けられた転送を表す可能性があり、ノードが、1又は2以上のリンク上で1又は2以上のレコードを生成するための1又は2以上のリンク上の1又は2以上のレコードの変換を表す可能性がある。例えば、単純な場合、1つのレコードが、それぞれの入力リンクから受け入れられ、1つのレコードが、それぞれの出力リンクに与えられる。
一部の例において、構文は、より複雑である可能性がある。例えば、ユーザは、ノードのグループ分け又は入れ子を明示的に示す可能性がある。例えば、いくつかの現在の視覚的プログラミング環境は、ループの繰り返しのたびに繰り返されるべき処理がボックス要素内に囲み込まれるループ構文を含む。グラフに基づくプログラムのコンパイラは、例えば、ループ構造に関する明示的な構文に合致するプログラムの仕様を処理する。一部の例においては、ユーザが要素のグループを明示的に特定し、グループの周りに境界が描かれ、それから、そのグループがサブシステムとして扱われる。別の手法においては、グラフの仕様が、その部分の外とは異なる構文に従うものとして(例えば、ユーザが挿入したボ
ックスによって)明示的に示される下位部分を有する可能性がある。グラフに基づく計算のための視覚的プログラミング環境の一部の例においては、例えば、色によりグループへの注意を促すことによって、又はグループの周りに境界を描くことによってプログラムエラーを示すために、要素のグループがユーザに対して特定される可能性がある。
一態様においては、概して、グラフに基づくプログラムの仕様を処理するための方法が、ユーザインターフェースにおいて、グラフに基づくプログラムの仕様を与えるステップであって、複数の構成要素を規定するユーザ入力を受け取ることであって、複数の構成要素の各々が、処理タスクに対応し、少なくとも一部の構成要素が、1又は2以上のポートを含む、受け取ること、及び複数のリンクを規定するユーザ入力を受け取ることであって、リンクの少なくとも一部が、複数の構成要素の上流の構成要素の出力ポートを複数の構成要素の下流の構成要素の入力ポートに接続する、受け取ることを含む、ステップと、(「実行セット(execution set)」に対応する)複数の構成要素の1又は2以上のサブセ
ットを特定するためにグラフに基づくプログラムの仕様を処理するステップであって、リンクされる構成要素のデータ処理の特徴に少なくとも部分的に基づいて異なるサブセット内の構成要素の間に現れる1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定すること、特定されたサブセットの入口点、特定されたサブセットの出口点に基づいてサブセットを形成すること、ユーザインターフェース内に形成されたサブセットの視覚的表現を与えること、並びにランタイムシステムによる実行のために使用されるときに、それぞれの形成されたサブセット内の構成要素に対応する処理タスクを行わせる(performed)、それぞれの形成されたサブセットのための準備されたコードを生じ
させることを含む、ステップとを含む。本明細書において使用されるとき、「準備されたコード」は、実行可能コード又は実行可能コードへとさらにコンパイル若しくは解釈され得るコードを含む可能性がある、グラフに基づくプログラムの仕様の解析された要素を変換するときにコンパイラ又はインタープリタによって使用される任意の目標の言語のコードを含む。
態様は、以下の特徴のうちの1又は2以上を含み得る。
処理するステップは、サブセットのうちの1つに含まれるべき又はサブセットのうちの1つから削除されるべき1又は2以上の構成要素を規定するユーザ入力を含むユーザ入力の履歴を記憶することをさらに含む。
ユーザ入力の履歴は、サブセットのうちの1つから削除されるべき少なくとも1つの構成要素を規定するユーザ入力を含む。
サブセットを形成することは、削除された構成要素が含まれるべき新しいサブセットを生じさせることを含む。
サブセットを形成することは、削除された構成要素が含まれるべき新しいサブセットをユーザ入力が規定するまでサブセットを形成することを遅らせることを含む。
ユーザ入力の履歴は、サブセットのうちの1つに含まれるべき少なくとも1つの構成要素を規定するユーザ入力を含む。
規定された構成要素が含まれるべきサブセットは、サブセット内のすべての構成要素を有効化する又は無効化するための入力を含む。
ポートは、単一のデータ要素を送信又は受信するためのスカラデータポートと、複数の
データ要素のコレクション(collection)を送信又は受信するためのコレクションデータポートとを含む。
1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定することは、上流の構成要素のコレクションデータ出力ポートを下流の構成要素のスカラデータ入力ポートに接続する1又は2以上のリンクを特定することに基づいて1又は2以上のサブセットの入口点を特定することと、上流の構成要素のスカラデータ出力ポートを下流の構成要素のコレクションデータ入力ポートに接続する1又は2以上のリンクを特定することに基づいて1又は2以上のサブセットの出口点を特定することとを含む。
サブセットを形成することは、詳しく調べられた(traversed)サブセットの入口点及び
サブセットの出口点のレコードを保持しながらグラフに基づくプログラムの仕様の構成要素を詳しく調べ(traverse)、グラフに基づくプログラムの仕様の各構成要素を、詳しく調べられたサブセットの入口点及びサブセットの出口点のレコードから決定された単一のサブセット識別子に関連付けることを含む。
複数の構成要素の特定されたサブセットに関連する各サブセット識別子は、一意である。
詳しく調べられたサブセットの入口点及びサブセットの出口点のレコードは、識別子の値のパスとして保持される。
識別子の値のパスは、分割文字によって互いに分けられた識別子の値の文字列を含む。
サブセットを形成することは、グラフに基づくプログラムの仕様の第1の構成要素をサブセット識別子に関連付けることと、サブセット識別子を第1の構成要素から下流の構成要素に伝搬させることと、特定されたサブセットの入口点及び特定されたサブセットの出口点に基づいてサブセット識別子の伝搬中にサブセット識別子を修正することとを含む。
サブセット識別子の伝搬中にサブセット識別子を修正することは、サブセットの入口点を詳しく調べる(traversing)と、サブセット識別子の値を第1のサブセット識別子の値からサブセットの入口点に関連する第2のサブセット識別子の値に変更することと、サブセットの入口点に関連するサブセットの出口点を詳しく調べると、サブセット識別子の値を第1のサブセット識別子の値に変更することとを含む。
それぞれの形成されたサブセットのための準備されたコードを生じさせることは、直列実行を強制するポート間のグラフに基づくプログラムの仕様内のリンクに基づいて、その形成されたサブセットの構成要素及びそれらの構成要素の間の接続を含む制御グラフを生じさせることを含む。
ランタイムシステムは、準備されたコードを使用して、形成されたサブセットのうちの少なくとも1つの異なるインスタンス内の構成要素に対応する処理タスクを並列に行わせる。
複数のサブセットは、別の形成されたサブセット内に入れ子にされた少なくとも1つの形成されたサブセットを有する階層内に形成される。
別の態様においては、概して、ソフトウェアが、グラフに基づくプログラムの仕様を処理するための、コンピュータ可読媒体に非一時的形態で記憶され、ソフトウェアは、コンピューティングシステムに、ユーザインターフェースにおいて、グラフに基づくプログラ
ムの仕様を与えることであって、複数の構成要素を規定するユーザ入力を受け取ることであって、複数の構成要素の各々が、処理タスクに対応し、少なくとも一部の構成要素が、1又は2以上のポートを含む、受け取ること、及び複数のリンクを規定するユーザ入力を受け取ることであって、リンクの少なくとも一部が、複数の構成要素の上流の構成要素の出力ポートを複数の構成要素の下流の構成要素の入力ポートに接続する、受け取ることを含む、与えることと、複数の構成要素の1又は2以上のサブセットを特定するためにグラフに基づくプログラムの仕様を処理することであって、リンクされる構成要素のデータ処理の特徴に少なくとも部分的に基づいて異なるサブセット内の構成要素の間に現れる1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定すること、特定されたサブセットの入口点、特定されたサブセットの出口点に基づいてサブセットを形成すること、ユーザインターフェース内に形成されたサブセットの視覚的表現を与えること、並びにランタイムシステムによる実行のために使用されるときに、それぞれの形成されたサブセット内の構成要素に対応する処理タスクを行わせる、それぞれの形成されたサブセットのための準備されたコードを生じさせることを含む、処理することとを行わせるための命令を含む。
別の態様においては、概して、グラフに基づくプログラムの仕様を処理するためのコンピューティングシステムが、グラフに基づくプログラムの仕様を与えるように構成されたユーザインターフェースであって、与えることが、複数の構成要素を規定するユーザ入力を受け取ることであって、複数の構成要素の各々が、処理タスクに対応し、少なくとも一部の構成要素が、1又は2以上のポートを含む、受け取ること、及び複数のリンクを規定するユーザ入力を受け取ることであって、リンクの少なくとも一部が、複数の構成要素の上流の構成要素の出力ポートを複数の構成要素の下流の構成要素の入力ポートに接続する、受け取ることを含む、ユーザインターフェースと、複数の構成要素の1又は2以上のサブセットを特定するためにグラフに基づくプログラムの仕様を処理するように構成された少なくとも1つのプロセッサであって、処理することが、リンクされる構成要素のデータ処理の特徴に少なくとも部分的に基づいて異なるサブセット内の構成要素の間に現れる1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定すること、特定されたサブセットの入口点、特定されたサブセットの出口点に基づいてサブセットを形成すること、ユーザインターフェース内に形成されたサブセットの視覚的表現を与えること、並びにランタイムシステムによる実行のために使用されるときに、それぞれの形成されたサブセット内の構成要素に対応する処理タスクを行わせる、それぞれの形成されたサブセットのための準備されたコードを生じさせることを含む、少なくとも1つのプロセッサとを含む。
態様は、以下の利点のうちの1又は2以上を有する可能性がある。
また、本明細書において説明される技術は、コンピューティングシステムのアーキテクチャのさまざまなレイヤにおいてこれまでにない技術的特徴を使用してコンピューティングシステムにおける大量のデータの効率的な処理を促進する。これらの技術的特徴は、設計時、コンパイル時、及び実行時を含むコンピューティングシステムの動作のさまざまな段階で一緒に働く。プログラミングプラットフォームが、グラフに基づくプログラムの仕様が設計時に所望の計算を規定することを可能にする。コンパイラが、ランタイムでコンピューティングシステムのサーバの間に細分化されたタスクを効率的に分散させるためにコンパイル時に目標のプログラムの仕様を準備する。例えば、タスクは、グラフに基づくプログラムの仕様内の任意の制御フロー及びデータフローの制約に従って構成される。ランタイムシステムは、(例えば、所与の計算リソースの単位毎に処理されるレコードの数の)計算効率を高めるような方法で同時実行のためのこれらのタスクの動的な分散をサポートする。さまざまな技術的特徴が、通常のシステムを超える効率の向上を達成するために一緒に働く。
例えば、コンピューティングシステムは、改善されたインターフェースをユーザに提供することによってデータ処理グラフ(又はその他のグラフに基づくプログラムの仕様)の構成要素に対応するタスクの効率的で柔軟なランタイムの実行を容易にするようにしてそれらのタスクを使用してデータ要素を処理することができる。ユーザは、単純に、所望のデータ処理の計算を実行する構成要素の異なる種類のポートを接続することができ、コンピューティングシステムは、後でプログラムの仕様を処理する際に使用するために、1もしく2以上の構成要素を含むサブセット及び/又は構成要素の入れ子にされたサブセット又はこれら両方を自動的に特定することができる。例えば、この実行セット発見前処理手順は、人が認識することが非常に難しい構成要素の潜在的に入れ子にされた実行セットの階層を特定することができ、そして、システムは、効率的な並列データ処理のためにそれらのサブセットを実行するための基礎を成すシステムアーキテクチャ内のリソースの割り当てを決定することができる。構成要素のそのようなサブセット(「実行セット」)を自動的に特定することによって、コンピューティングシステムは、下でより詳細に説明されるように、データ処理グラフが特定の一貫性の要件を満たすことを保証することができ、人にとって非常に難しい極めてスケーラブルな度合いの並列処理で基礎を成すコンピューティングシステムによって実行セットが動作させられることを可能にする。この特定は、スクリーン上でこれらの点にユーザの注意を引きつけるためにユーザインターフェース内でユーザが関心のあるグラフ上の特定の領域を際立たせ、最終的に特定のタスクとして扱われ、基礎を成すコンピューティングシステムによって並列化される実行セットをユーザに対して特定する実用的な方法を提供する。加えて、コンピューティングシステムは、ユーザ入力の記憶された履歴を考慮して、ユーザインターフェース内でインタラクティブに実行セットを形成することができる。したがって、コンピューティングシステムは、コンピューティングシステムの内部機能の効率を改善するようにして処理タスクが実行されることを保証しながら、実行セットを形成するときにユーザ入力を考慮に入れることができる。
また、これらの技術は、メモリ及びその他の計算リソースの需要を減らし、個々のデータ要素を処理する際のシステムのレイテンシーを減らすなど、本明細書において説明される方法を実行するときのコンピューティングシステムの内部機能に対するさらなる技術的効果を呈する。特に、これらの利点は、データ処理グラフの効率的実行に貢献する。例えば、通常のグラフに基づく計算システムは、グラフを実行するときにその他のプロセスによって開始されるプロセス(例えば、Unixプロセス)の数と、それらのプロセスの結果として生じる累積的な起動時間とが原因で、比較的大きなレイテンシー(例えば、およそ数十ミリ秒)を有する可能性がある。しかるに、本明細書において説明される技術は、単一のプロセス内のプログラムコードがプロセスの起動オーバーヘッドなしに直接その他のプログラムコードを開始することを可能にすることによって、比較的小さなレイテンシー(例えば、数十マイクロ秒)及び1秒あたりに処理されるデータのより大きなスループットを容易にする。データ処理グラフの効率的実行に貢献するその他の態様は、下の説明において明らかになる。
別の包括的な態様においては、グラフに基づく計算の視覚的表現内の要素のグループの表現が、その視覚的表現のユーザに価値を提供する。この価値は、視覚的表現の複雑さによって増すのみであり、グループの複雑さは、例えば、グループの要素の位置付け、例えば、視覚的表現の構文要素の分析に基づくグループ自体の決定、又は複数のレベルへのグループの入れ子及び/若しくはいずれか1つのレベルにバラバラの「ピア(peer)」グループを有することの結果として生じる。従来の手法は、例えば、(a)単一のグループ若しくはグループのレベル(つまり、入れ子がない)、(b)視覚的表現においてグループの要素が中に表される、及び/若しくは視覚表現においてそのグループにない要素が除外される決まった境界(例えば、長方形)を有すること、(c)視覚的表現においてグルー
プの要素の移動に境界を適応させることと比較して、境界によって残るべきグループの要素の境界を定めること、並びに/或いは(d)視覚的表現及び/又は基礎を成すグラフに基づく計算の自動化された構文的(又は意味的)分析と比較して、グループの要素をユーザが規定することを要求することに制限される。視覚的表現内で(例えば、視覚的な開発環境内で)複雑なグラフに基づく計算の仕様をサポートするために、視覚的な環境が、ユーザにフィードバックを与えて、(例えば、コンパイルの後に又は直ちに)システムがデータを処理するために使用するグラフに基づく計算の解釈を示す。上述の手法の制限のうちの一部又はすべてを取り除くことは、ユーザが、視覚的な環境をホストする第1のコンピュータによって自動的に、潜在的に複雑なグラフに基づく計算を視覚化し、規定するための方法を提供し、規定されている計算の視覚的なフィードバックを提供し、例えば、視覚的表現を第2のコンピュータ(又はマルチコンピュータシステム)上で実行するための実行可能な形態にコンパイルすることによって視覚的なフィードバックに直接対応する計算を第2のコンピュータ(又はマルチコンピュータシステム)に実行させる。利点は、計算の仕様の効率と、より重要なことに、視覚的表現を規定する又は見るユーザの意図と比較したときの実行される計算の正しさ、及び誤りの削減とを含む。
別の態様においては、概して、グラフに基づく計算の視覚的表現の構文が、グラフの要素の入れ子にされたグループの周りのボックス又は外形などの境界構造の明示的な規定を必要としない。必ずしもすべてではないいくつかの例において、視覚的表現の要素の入れ子又はグループ分けは、視覚的表現の構文(又は場合によっては意味(semantics))に
従って決定される。
ユーザが境界構造の明示的規定を行う必要を避けることが望ましいいくつかの理由がある。これらの理由は、ステップを避けることによる入力の容易さ、境界構造を容認するか又は境界構造に合致するようにして視覚的表現内の要素を配列しなければならない複雑さを避けること、境界構造を調整し、含まれる要素を再配列又は追加する必要を避けること、及び境界構造による不必要な「乱雑さ」を防ぐことによって視覚的表現の明瞭性を高めることのうちの1又は2以上を含む。
一方、視覚的表現の構文及び/若しくは意味によって決定され得るか、その他の手段によって決定された可能性のある要素のグループ分け及び/又は入れ子にユーザが気付く理由がある。例えば、そのようなグループ分け及び入れ子は、プログラムの仕様の構文的及び/又は意味的解釈にとって重大である可能性がある。したがって、たとえユーザがグループ分け及び/又は入れ子を明示的に規定する必要がないことが望ましい可能性があるとしても、やはり、そのようなグループ分け及び入れ子を特定し、ユーザに対して視覚化することが望ましい可能性がある。さらに、プログラムの仕様の解釈がそのプログラムの仕様の要素の決定されたグループ分け及び入れ子に依存する限り、ユーザに対してグループ分け及び入れ子を特定することは、ユーザに対して潜在的なプログラミングの誤りを特定することによってプログラムの仕様のタスクの正しさを高めるように働き得る。この目的で、プログラムの実行及びプログラムによる結果として得られるデータ処理を最終的に制御するコンパイルプロセスにおいて使用されるのと同じプログラムの仕様の分析が、ユーザに視覚的なフィードバックを提供するために使用されることが重要である可能性がある。したがって、単にプログラムの入力を助けることにとどまらず、視覚的表現内の要素のグループ分け及び/又は入れ子の視覚的なフィードバックは、プログラムの仕様を与えるユーザによって意図されていない方法でデータを処理することを防止することによって技術的利点をもたらす。
別の態様においては、概して、グラフに基づく計算の視覚的表現内の要素の入れ子にされたグループ分けの1、2、3又は4以上のレベルを視覚的に表す手法が、各グループに関して、そのグループの要素を含む視覚的表現の(接続された又はおそらくは途切れた)
領域の空間的範囲を決定することを含む。そして、領域は、例えば、色(グレースケールを含む)(例えば、背景色、グループ内の要素の色など)、領域の境界(例えば、領域の外形に沿った線)、濃淡(例えば、3次元透視図(perspective view)内の各グループの「elevation(高さ)」を表す)、又はこれらの若しくはその他の視覚的表現技術のうち
の1若しくは2以上の組合せを使用する視覚的表現技術を使用して視覚的表現内に視覚的に示される。
一部の例において、領域の視覚的表現は、視覚的表現の領域及び要素の外形の交わり(intersection)における、又は視覚的表現の領域及び要素の外形の交わりの近くにおける視覚的表現内のさらなる要素のアノテーション又は挿入も含む可能性がある。例えば、グループ分けされる要素が矢印によってリンクされる(例えば、ボックスとして表される)ノードである場合、領域の外形は、概して、いくつかの矢印と交わる。さらなる要素のアノテーション又は挿入は、異なる(つまり、入れ子にされた)領域内のノードをつなぎ合わせる矢印上の視覚的要素のアノテーション又は追加を含み得る。
一部の例において、各領域が視覚的表現の要素の対応するグループに関連付けられるようにして領域の空間的範囲を決定することは、領域の空間的範囲又は等価的に外形を2つのステップで決定することを含む。外形の候補のセットの第1の特徴付けが、決定される。例えば、これらの第1の外形は、入れ子及びグループ分けに合致し、外形が交わらないことなどの必要とされる特性に違反しない。それから、これらの第1の特徴付けは、含まれる要素の視覚的表現の完全な包含及び外形が交わらないことなどの必要とされる特性を保持しながら、領域の視覚的表現に関連する基準を満たす(例えば、最適化する)調整された外形の第2の特徴付けを決定するために使用される。満たされる基準は、例えば、小さな面積を有することが好ましい領域の面積、例えば、異なる外形の交わりをなくすために必要とされない外形の凹形(例えば、内側に湾曲した)のセクションを避ける凸性、任意の特定のグループに関する接続された領域対途切れた領域の好ましさ、及び例えば、異なるグループの外形の間の最小限の離間を必要とする外形の離間のうちの1又は2以上を含む可能性がある。一部の例においては、第2の特徴付けによって特徴付けられる外形が、例えば、(例えば、領域の角を「丸める」ために)外形の湾曲を調整してさらに調整される。
一部の例において、第1の特徴付けを形成することは、一部の例においては領域のDelaunay三角形分割である視覚的表現の領域のモザイク式の配列(tessellation)を利用する。一部の例において、グループのそれぞれの視覚的要素は、多角形(又は線若しくは接続された線)として表される。モザイク式の配列のタイルの頂点は、多角形上の点、例えば、多角形の頂点にある(又はそうでなければ対応する)。そのとき、外形の第1の特徴付けは、外形及びモザイク式の配列のタイルの境界の交わりを含む。
一部の例において、モザイク式の配列の各頂点は、部分的に順序付けられたラベルのセットからのラベルに関連付けられる。多角形(例えば、三角形)の形をしたタイルの場合、タイルの側面の交わりの数は、その側面の末尾の(つまり、グラフの要素の多角形の又は線のラベルの)ラベルに依存する。上で検討されたように、ラベルの部分的な順序付けが木で表される場合、タイルの側面の領域の外形の交わりの数は、ラベルの間の詳しく調べられる木の辺の最小の数に等しい。一部の例において、第1の特徴付けはタイルの側面に沿って一定の方法で(例えば、一様な離間によって)これらの交わりを離間する。
一部の例において、外形の第2の特徴付けは、領域の同じモザイク式の配列を使用し、領域の外形及びモザイク式の配列のタイルの側面の交点の調整に対応する。
タイルの頂点がデータ点の位置にあるモザイク式の配列を使用して空間的に分散された
データ点に合致する輪郭のプロットを形成するための技術が知られていることを理解されたい。しかし、輪郭を描くことと入れ子にされた領域の外形を決定することとの間には明らかな類似性がある可能性があるにもかかわらず、問題及びそれらの問題の解決策は異なる。第1の違いは、グループのラベルが、概して、部分的に順序付けられ、完全に順序付けられないことである(例えば、ラベルは、同じ順序付け情報を表す実数にマッピングされない可能性がある)。例えば、高さは、完全に順序付けられた尺度である。この手法においては、2つのグループが、同じ「レベル」(例えば、部分的な順序付けの木表現内の同じ深さ)のラベルを有する可能性がある。各グループから1つずつ2つの視覚的要素が近接している場合、通常の輪郭を描く手法は、根本的に、それらの視覚的要素が同じ「高さ」又は「レベル」にあるので、それらの視覚的要素の間に輪郭を挿入する必要がない。一方、この手法のいくつかの実施形態においては、概して、視覚的要素を分ける少なくとも2つの輪郭、すなわち、第1の領域を、それ及び第2の領域が入れ子にされる囲み込む領域の残りから分ける1つの輪郭と、第2の領域を、囲み込む領域の残りから分ける別の輪郭とが存在する。さらなる違いは、輪郭を描く場合に、概して、上で検討されたように、例えば、領域の外形を最小化するなどの方法で輪郭の形状を最適化する必要がないことである。通常のモザイク式の配列に基づく輪郭を描く手法は視覚的要素のグループに対応する領域の外形を決定する問題に直接適用可能でないという観測にもかかわらず、これらの外形が決定された後、結果が、視覚的要素が表され得る「トポグラフィ(topography)」に対応するように解釈される可能性がある。
一部の例において、外形の第2の特徴を形成する際の基準を満たすことは、制約にしたがって外形の全長を最適化すること(つまり、最小化すること)を含む。制約は、例えば、外形の必要とされる分け、又は外形の湾曲の必要とされる(例えば、最小の)半径を含む可能性がある。
一部の例において、領域の計算及び表示は、視覚的表現の要素が(例えば、ユーザが表現を操作することによって)移動されるときに、グループに対応する領域が要素の更新された位置に一致するように調整されるように動的である可能性がある。同様に、グループのメンバーであること又はグループの入れ子の関係が変わる場合、領域の表示が調整され得る。
上で紹介されたように、グラフィカルな要素のグループ分け及び/又は入れ子が決定され得るさまざまな方法が存在する。グループ分けを決定する自動化された方法が、視覚的表現の構文要素を使用する。例えば、視覚的表現において矢印及びボックスとして表される可能性があるリンクとノードとの間のつなぎ目が、ノードの入力又は出力「ポート」を表す構文要素を含む可能性がある。異なる種類のポートが、異なる視覚的にはっきりと区別可能な記号を使用して表される可能性がある。視覚的表現は、グループ及びグループの入れ子を特定するために表現の構文的に関連する特徴に従って自動的に処理される可能性がある。例えば、要素間の異なる種類のコネクタ(例えば、矢印)又はリンクする要素に対するアノテーションを使用して、その他の構文的な仕掛けが使用される可能性がある。
一部の例において、構文要素は、グラフに基づく計算による処理の表現の粒度(granularity)を特定する。例えば、特定のリンク、又はポートとして表され得るリンクとノー
ドとの間のつなぎ目は、順序付けられないか、完全に順序付けられるか、又は部分的に順序付けられる可能性があるレコードのコレクション全体の転送を表し、コレクション全体の転送を表す出力リンクを有するグラフに基づく計算のノードは、そのノードの実行の際にそのようなコレクションを生成する仕様を有すると理解される。同様に、レコードのコレクション全体の転送を表す入力リンクを有するグラフに基づく計算のノードは、そのノードの実行の際にそのようなコレクションを消費する仕様を有すると理解される。一方、特定のリンク、又はポートとして表され得るリンクとノードとの間のつなぎ目は、ノード
に関連する計算の実行の際の最大で1つのレコードの転送(つまり、1つのレコードの転送又はまったくレコードの転送なし)を表し、ノードのコレクションの処理は、ノードに関して規定された計算の繰り返される実行に対応する。いくつかのそのような例において、グループ分けは、要素のグループが、領域に入る各リンク上の最大で1つのレコードの処理と、領域を離れる最大で1つのレコードを生成することとを表す可能性があるようなものであり、計算の各々の最大で1回の実行が、グループのノードの各々に関連付けられる。そのようなグループは、「スカラ」グループと呼ばれる可能性がある。そのようなグループは、別のグループ内に入れ子になっている可能性があり、そのグループ内のノードに関連する計算の実行は、レコードのコレクション全体を生成又は消費する。
グループ分けされるグラフィカルな要素は視覚的に表されているグラフのノードであるとは限らないことを理解されたい。例えば、矢印として表されるリンクが、グループ化される可能性がある(つまり、矢印の視覚的表現の空間的範囲は、それらリンクが属するグループに関する決定された領域に完全に含まれる)。一部の例において、グループ分けされる要素のグループは、計算を表すグラフのノードの視覚的表現とリンクの視覚的表現との両方を含む。
一部の例において、視覚的表現の各要素(又は等価的に計算を表すグラフの各要素)をラベルの部分的に順序付けられたセットからのラベルと関連付けるグループ分けが決定される。一部の例において、各ラベルは、ラベルの部分的な順序付けを表す木内のノードのパスに対応する可能性がある。例えば、視覚的表現全体は、木のルートノードに対応する可能性があり、ルートのそれぞれの子は、異なるバラバラのグループに対応する可能性がある。要素のグループを表す任意のノードに関して、そのノードのそれぞれの子は、そのグループの異なるバラバラの入れ子にされたグループ(例えば、1又は2以上のあり得るすべての要素の下位グループ)を表す。グループのラベルの部分的な順序付け(つまり、入れ子)に合致する領域及び境界が定義される視覚的な環境においては、木内の第1のノードに対応する第1の領域と木内の第2のノードに対応する第2の領域との間の視覚的表現内の任意のパスが、木のノードの間のそれぞれの遷移が視覚的表現内の領域の境界を横切ることに対応するように木の第1のノードから第2のノードまでの木内のパスに対応する。
態様においては、概して、グラフに基づく計算のための方法が、ユーザからグラフに基づく計算に関する仕様情報を受け入れることであって、仕様が複数のグラフの要素を含む、受け入れることと、仕様情報の視覚的表現をユーザに提供することとを含む。第1の計算システムにおいて、グラフの要素の1又は2以上のグループの視覚的表現は、受け入れられた仕様情報に基づいて決定される。この視覚的表現は、1又は2以上のグループのうちのそれぞれのグループに関連する空間領域を含む。1又は2以上のグループに関する空間領域の視覚的表現は、ユーザからの仕様情報の視覚的情報に関連して提示される。
一部の例において、1又は2以上のグループの視覚的表現を決定することは、受け入れられた仕様情報を処理してグループを形成することを含む。さらに、方法は、第2の計算システム上のグラフに基づく計算の実行を、形成された1又は2以上のグループと合致させることを含む可能性がある。例えば、グラフに基づく計算の実行可能な表現が、ユーザから提供された仕様情報及び形成されたグループから形成される可能性がある。
一部の実施形態において、方法は、第2の計算システム上のグラフに基づく計算の実行を制御するために、形成された1又は2以上のグループに従ってグラフに基づく計算のランタイム仕様を形成することをさらに含む。1又は2以上のグループは、グラフの要素の入れ子にされたグループを含んでいた可能性がある。グラフに基づく計算に関する仕様情報は、複数のグラフの要素の仕様を含む可能性があり、それぞれのグラフの要素の仕様は
、グラフに基づく計算の視覚的表現内のグラフの要素の視覚的表現の位置を含む。
一部の実施形態においては、ユーザによるグラフに基づく計算の視覚的表現のその他の入力及び修正に合致するフィードバックを提供するために、視覚的な環境内のグループの領域及び/又は対応する外形の視覚的なフィードバックが、例えば、連続的に又はユーザからの要求に応じて第1のコンピュータによって計算される。第1のコンピュータによるこの計算は、グループを特定するためのグループ及びそれらのグループの入れ子の自動化された決定を含む。ユーザによる入力及び修正は、グループを変更されないまま保つ可能性があり、又は例えば、構文の変更によって(例えば、計算要素のポートの接続の変更によって)1若しくは2以上のグループのメンバーであることを変更する可能性がある。どちらの場合も、グループの領域の視覚的なフィードバックは視覚的表現内にある可能性がある。グループを特定するための第1のコンピュータによる同じ計算は、グループのその計算から計算される視覚的表現に合致する方法で計算をコンパイルし及び/又は第2のコンピュータ(又はマルチコンピュータシステム)上で実行するために第1のコンピュータによって使用される。したがって、(例えば、ユーザに対してコンピュータディスプレイ上で提示される)視覚的表現、及び表された計算を実行する計算が、リンクされ、合致する。
視覚的表現及び実行される計算のこのリンクは、計算の誤った仕様による計算の誤りを防止する技術的問題に対処する。視覚的表現内の(例えば、視覚的でインタラクティブな開発環境内の)空間領域の計算及びレンダリング(rendering)による要素のグループ分け
及び入れ子の自動化されたフィードバックは、視覚的表現内でグループを規定する及び/又はそれらのグループを与えるための明示的なユーザ入力を必要とせずに、仕様の集約された要素(例えば、グループ及びそれらのグループの入れ子)を推測し、それらの要素を(例えば、領域の形態で)与える解決策によって複雑な仕様の入力の技術的問題に対処する。
本発明のその他の特徴及び利点は、以下の説明及び請求項から明らかになるであろう。
すなわち本発明は、以下に関する。
1. グラフに基づくプログラムの仕様を処理するための方法であって、
ユーザインターフェースにおいて、グラフに基づくプログラムの仕様を与えるステップであって、
複数の構成要素を規定するユーザ入力を受け取ることであって、前記複数の構成要素の各々が、処理タスクに対応し、少なくとも一部の構成要素が、1又は2以上のポートを含む、受け取ること、及び
複数のリンクを規定するユーザ入力を受け取ることであって、前記リンクの少なくとも一部が、前記複数の構成要素の上流の構成要素の出力ポートを前記複数の構成要素の下流の構成要素の入力ポートに接続する、受け取ることを含む、ステップと、
前記複数の構成要素の1又は2以上のサブセットを特定するために前記グラフに基づくプログラムの仕様を処理するステップであって、
リンクされる構成要素のデータ処理の特徴に少なくとも部分的に基づいて異なるサブセット内の構成要素の間に現れる1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定すること、
前記特定されたサブセットの入口点及び前記特定されたサブセットの出口点に基づいて前記サブセットを形成すること、
前記ユーザインターフェース内に前記形成されたサブセットの視覚的表現を与えること、並びに
ランタイムシステムによる実行のために使用されるときに、それぞれの形成されたサブセット内の前記構成要素に対応する処理タスクを行わせる、それぞれの形成されたサブセットのための準備されたコードを生じさせることを含む、ステップとを含む、前記方法。
2. 処理するステップが、サブセットのうちの1つに含まれるべき又は前記サブセットのうちの1つから削除されるべき1又は2以上の構成要素を規定するユーザ入力を含むユーザ入力の履歴を記憶することをさらに含む上記1に記載の方法。
3. ユーザ入力の履歴が、サブセットのうちの1つから削除されるべき少なくとも1つの構成要素を規定するユーザ入力を含む上記2に記載の方法。
4. サブセットを形成することが、削除された構成要素が含まれるべき新しいサブセットを生じさせることを含む上記3に記載の方法。
5. サブセットを形成することが、削除された構成要素が含まれるべき新しいサブセットをユーザ入力が規定するまで前記サブセットを形成することを遅らせることを含む上記3又は4に記載の方法。
6. ユーザ入力の履歴が、サブセットのうちの1つに含まれるべき少なくとも1つの構成要素を規定するユーザ入力を含む上記2〜5のいずれかに記載の方法。
7. 規定された構成要素が含まれるべきサブセットが、前記サブセット内のすべての構成要素を有効化する又は無効化するための入力を含む上記6に記載の方法。
8. ポートが、単一のデータ要素を送信又は受信するためのスカラデータポートと、複数のデータ要素のコレクションを送信又は受信するためのコレクションデータポートとを含む上記1〜7のいずれかに記載の方法。
9. 1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定することが、
上流の構成要素のコレクションデータ出力ポートを下流の構成要素のスカラデータ入力ポートに接続する1又は2以上のリンクを特定することに基づいて1又は2以上のサブセットの入口点を特定することと、
上流の構成要素のスカラデータ出力ポートを下流の構成要素のコレクションデータ入力ポートに接続する1又は2以上のリンクを特定することに基づいて1又は2以上のサブセットの出口点を特定することとを含む上記8に記載の方法。
10. サブセットを形成することが、詳しく調べられたサブセットの入口点及びサブセットの出口点のレコードを保持しながらグラフに基づくプログラムの仕様の構成要素を詳しく調べ、前記グラフに基づくプログラムの仕様の各構成要素を、詳しく調べられたサブセットの入口点及びサブセットの出口点の前記レコードから決定された単一のサブセット識別子に関連付けることを含む上記9に記載の方法。
11. 複数の構成要素の特定されたサブセットに関連する各サブセット識別子が、一意である上記10に記載の方法。
12. 詳しく調べられたサブセットの入口点及びサブセットの出口点のレコードが、識別子の値のパスとして保持される上記10又は11に記載の方法。
13. 識別子の値のパスが、分割文字によって互いに分けられた識別子の値の文字列を含む上記12に記載の方法。
14. サブセットを形成することが、
グラフに基づくプログラムの仕様の第1の構成要素をサブセット識別子に関連付けることと、
前記サブセット識別子を前記第1の構成要素から下流の構成要素に伝搬させることと、 特定されたサブセットの入口点及び特定されたサブセットの出口点に基づいて前記サブセット識別子の伝搬中に前記サブセット識別子を修正することとを含む上記9〜13のいずれかに記載の方法。
15. サブセット識別子の伝搬中に前記サブセット識別子を修正することが、
サブセットの入口点を詳しく調べると、前記サブセット識別子の値を第1のサブセット識別子の値から前記サブセットの入口点に関連する第2のサブセット識別子の値に変更することと、
前記サブセットの入口点に関連するサブセットの出口点を詳しく調べると、前記サブセット識別子の前記値を前記第1のサブセット識別子の値に変更することとを含む上記14に記載の方法。
16. それぞれの形成されたサブセットのための準備されたコードを生じさせることが、直列実行を強制するポート間のグラフに基づくプログラムの仕様内のリンクに基づいて、前記形成されたサブセットの構成要素及び前記構成要素の間の接続を含む制御グラフを生じさせることを含む上記1〜15のいずれかに記載の方法。
17. ランタイムシステムが、準備されたコードを使用して、形成されたサブセットのうちの少なくとも1つの異なるインスタンス内の構成要素に対応するタスクの処理を並列に実行させる上記1〜16のいずれかに記載の方法。
18. 複数のサブセットが、別の形成されたサブセット内に入れ子にされた少なくとも1つの形成されたサブセットを有する階層内に形成される上記17に記載の方法。
19. グラフに基づくプログラムの仕様を処理するための、コンピュータ可読媒体に非一時的形態で記憶されたソフトウェアであって、コンピューティングシステムに、
ユーザインターフェースにおいて、グラフに基づくプログラムの仕様を与えることであって、
複数の構成要素を規定するユーザ入力を受け取ることであって、前記複数の構成要素の各々が、処理タスクに対応し、少なくとも一部の構成要素が、1又は2以上のポートを含む、受け取ること、及び
複数のリンクを規定するユーザ入力を受け取ることであって、前記リンクの少なくとも一部が、前記複数の構成要素の上流の構成要素の出力ポートを前記複数の構成要素の下流の構成要素の入力ポートに接続する、受け取ることを含む、与えることと、
前記複数の構成要素の1又は2以上のサブセットを特定するために前記グラフに基づくプログラムの仕様を処理することであって、
リンクされる構成要素のデータ処理の特徴に少なくとも部分的に基づいて異なるサブセット内の構成要素の間に現れる1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定すること、
前記特定されたサブセットの入口点及び前記特定されたサブセットの出口点に基づいて前記サブセットを形成すること、
前記ユーザインターフェース内に前記形成されたサブセットの視覚的表現を与えること、並びに
ランタイムシステムによる実行のために使用されるときに、それぞれの形成されたサブセット内の前記構成要素に対応する処理タスクを行わせる、それぞれの形成されたサブセットのための準備されたコードを生じさせることを含む、処理することとを行わせるための命令を含む、前記ソフトウェア。
20. グラフに基づくプログラムの仕様を処理するためのコンピューティングシステムであって、
グラフに基づくプログラムの仕様を与えるように構成されたユーザインターフェースであって、与えることが、
複数の構成要素を規定するユーザ入力を受け取ることであって、前記複数の構成要素の各々が、処理タスクに対応し、少なくとも一部の構成要素が、1又は2以上のポートを含む、受け取ること、及び
複数のリンクを規定するユーザ入力を受け取ることであって、前記リンクの少なくとも一部が、前記複数の構成要素の上流の構成要素の出力ポートを前記複数の構成要素の下流の構成要素の入力ポートに接続する、受け取ることを含む、ユーザインターフェースと、
前記複数の構成要素の1又は2以上のサブセットを特定するために前記グラフに基づくプログラムの仕様を処理するように構成された少なくとも1つのプロセッサであって、処理することが、
リンクされる構成要素のデータ処理の特徴に少なくとも部分的に基づいて異なるサブセット内の構成要素の間に現れる1又は2以上のサブセットの入口点及び1又は2以上のサブセットの出口点を特定すること、
前記特定されたサブセットの入口点及び前記特定されたサブセットの出口点に基づいて前記サブセットを形成すること、
前記ユーザインターフェース内に前記形成されたサブセットの視覚的表現を与えること、並びに
ランタイムシステムによる実行のために使用されるときに、それぞれの形成されたサブセット内の前記構成要素に対応する処理タスクを行わせる、それぞれの形成されたサブセットのための準備されたコードを生じさせることを含む、少なくとも1つのプロセッサとを含む、前記コンピューティングシステム。
21. リンクされた構成要素の間のデータ処理の特徴が、並列処理の階層的形態を提供する階層内のレベルのリンクされた構成要素の間の変化を含む上記1に記載の方法。
タスクに基づく計算システムのブロック図である。 制御ポート及びデータポートを有するデータ処理グラフの一部の例を示す図である。 制御ポート及びデータポートを有するデータ処理グラフの例を示す図である。 いくつかのスカラ出力ポートからスカラ入力ポートへの接続を含むデータ処理グラフである。 いくつかのコレクション出力ポートからコレクション入力ポートへの接続を含むデータ処理グラフである。 コレクション出力ポートからスカラ入力ポートへの接続及びスカラ出力ポートからコレクション入力ポートへの接続を含むデータ処理グラフである。 2つの構成要素の間のスカラポートからスカラポートへの接続の図である。 2つの構成要素の間のコレクションポートからコレクションポートへの接続の図である。 実行セットの入口点を含む2つの構成要素の間のコレクションポートからスカラポートへの接続の図である。 実行セットの出口点を含む2つの構成要素の間のスカラポートからコレクションポートへの接続の図である。 スタックに基づく割り当てアルゴリズムが適用されたデータ処理グラフである。 グローバルなマッピングに基づく割り当てアルゴリズムが適用されたデータ処理グラフである。 ユーザ定義の実行セットを有するデータ処理グラフである。 データ処理グラフ内の「同じセット(same set as)」関係を示す図である。 データ要素を複製する入口点を有するデータ処理グラフである。 ユーザインターフェースのワークフローを示す図である。 規則に違反する実行セットを有するデータ処理グラフである。 規則に違反する実行セットループを有するデータ処理グラフである。 データ処理グラフ及び対応する制御グラフの例の図である。 例示的な実行状態機械に関する状態遷移図である。 処理エンジンのセットの図である。 グラフィカルユーザインターフェースを含むコンパイラ/インタープリタのブロック図である。 実行セットに関連する空間領域を示すグラフに基づく計算の視覚的表現の例を示す図である。 図16の視覚的表現の三角形のモザイク式の配列を示す図である。 図17Bに示されたモザイク式の配列に対応する初期外形を示す図である。 図17Bに対応する調整された外形を示す図である。 第2の例に関する、三角形のモザイク式の配列及び対応する外形を示す図である。 重なり合うブロックの処理を示す図である。 第3の例に関する、三角形のモザイク式の配列及び対応する外形を示す図である。
図1を参照すると、タスクに基づく計算システム100が、高レベルのプログラムの仕様110を使用して、プログラムの仕様110によって規定された計算を実行するようにコンピューティングプラットフォーム150の計算及び記憶リソースを制御する。コンパイラ/インタープリタ120は、高レベルのプログラムの仕様110を受け取り、タスクに基づくランタイムインターフェース/コントローラ140によって実行され得る形態のタスクに基づく仕様130を生じさせる。コンパイラ/インタープリタ120は、複数のデータ要素の各々に適用される細分化されたタスクとして個々に又は一体としてインスタンス化され得る1又は2以上の「構成要素」の1又は2以上の「実行セット」を特定する。コンパイル又は解釈プロセスの一部は、下でより詳細に説明されるように、これらの実行セットを特定することと、実行するためにセットを準備することとを含む。コンパイラ/インタープリタ120は、高レベルのプログラムの仕様110を解析するステップ、構文を検証するステップ、データフォーマットの型検査を行うステップ、任意のエラー又は警告を生じさせるステップ、タスクに基づく仕様130を準備するステップなどのステップを含むさまざまなアルゴリズムのいずれかを使用する可能性があり、コンパイラ/インタープリタ120は、例えば、コンピューティングプラットフォーム150上で実行される計算の効率を最適化するためにさまざまな技術を利用する可能性がある。コンパイラ/インタープリタ120によって生じさせられる目標のプログラムの仕様は、それ自体、タスクに基づく仕様130を生成するためにシステム100の別の部分によってさらに処理される(例えば、さらにコンパイルされる、解釈されるなど)ことになる中間形態である可能性がある。下の検討は、そのような変換の1又は2以上の例を概説するが、例えば、コンパイラの設計に精通する者によって理解されるように、もちろん、変換のその他の手法があり得る。
概して、計算プラットフォーム150は、いくつかのコンピューティングノード152(例えば、分散された計算リソースと分散された記憶リソースとの両方を提供する個々のサーバコンピュータ)から構成され、それによって、高度な並列処理を可能にする。下でさらに詳細に検討されるように、高レベルのプログラムの仕様110において表される計算は、比較的細分化されたタスクとしてコンピューティングプラットフォーム150上で実行され、さらに、規定された計算の効率的な並列実行を可能にする。
1 データ処理グラフ
一部の実施形態において、高レベルのプログラムの仕様110は、データに対して実行されるデータ処理の計算の全体の一部をそれぞれが規定する「構成要素」のセットを含む「データ処理グラフ」と呼ばれるある種のグラフに基づくプログラムの仕様である。構成要素は、例えば、プログラミングユーザインターフェース及び/又は計算のデータ表現においてグラフ内のノードとして表される。上の背景技術において説明されたデータフローグラフなどの一部のグラフに基づくプログラムの仕様とは異なり、データ処理グラフは、データの転送、又は制御の転送、又はこれら両方のいずれかを表すノード間のリンクを含み得る。リンクの特徴を示す1つの方法は、構成要素に異なる種類のポートを設けることによる。リンクは、上流の構成要素の出力ポートから下流の構成要素の入力ポートに接続される有向リンクである。ポートは、データ要素がどのようにして書き込まれ、リンクから読まれるのか及び/又は構成要素がデータを処理するためにどのようにして制御されるのかの特徴を表すインジケータを有する。
これらのポートは、いくつかの異なる特徴を有する可能性がある。ポートの1つの特徴は、入力ポート又は出力ポートとしてのそのポートの方向性である。有向リンクは、データ及び/又は制御が上流の構成要素の出力ポートから下流の構成要素の入力ポートに運ばれることを表す。作成者は、異なる種類のポートを一緒にリンクすることを可能にされる。データ処理グラフのデータ処理の特徴の一部は、異なる種類のポートがどのようにして一緒にリンクされるのかに依存する。例えば、異なる種類のポート間のリンクは、下でより詳細に説明されるように、階層的形態の並列処理を提供する異なる「実行セット」内の構成要素の入れ子にされたサブセットにつながる可能性がある。特定のデータ処理の特徴が、ポートの種類によって示唆される。構成要素が有する可能性がある異なる種類のポートは、以下を含む。
・構成要素のインスタンスがポートに接続されたリンクを通り越すコレクションのすべてのデータ要素をそれぞれ読むか又は書くことを意味するコレクション入力ポート又はコレクション出力ポート。構成要素のコレクションポート間の単一のリンクを有する構成要素の対に関して、下流の構成要素は、概して、データ要素が上流の構成要素によって書かれるときにそれらのデータ要素を読むことを可能にされ、上流の構成要素と下流の構成要素との間のパイプライン並列処理を可能にする。下でより詳細に説明されるように、データ要素は、並べ替えられる可能性もあり、それが、並列処理の効率的な働きを可能にする。例えば、プログラミンググラフィカルインターフェース内の一部のグラフィカルな表現において、そのようなコレクションポートは、概して、構成要素の四角いコネクタ記号によって示される。
・構成要素のインスタンスが、それぞれ、ポートに接続されたリンクから最大で1つのデータ要素を読むか又はポートに接続されたリンクに最大で1つのデータ要素を書くことを意味するスカラ入力ポート又はスカラ出力ポート。構成要素のスカラポート間の単一のリンクを有する構成要素の対に関して、上流の構成要素が実行を終えた後の下流の構成要素の直列実行が、単一のデータ要素の転送を制御の転送として使用することによって強制される。例えば、プログラミンググラフィカルインターフェース内の一部のグラフィカルな表現において、そのようなスカラポートは、概して、構成要素の三角のコネクタ記号によって示される。
・スカラ入力又はスカラ出力と同様であるが、いかなるデータ要素も送信される必要がない制御入力ポート又は制御出力ポートであって、構成要素間の制御の転送を伝達するために使用される、制御入力ポート又は制御出力ポート。構成要素の制御ポート間のリンクを有する構成要素の対に関して、上流の構成要素が実行を終えた後の下流の構成要素の直列実行が(たとえそれらの構成要素がコレクションポート間のリンクも有するとしても)強制される。例えば、プログラミンググラフィカルインターフェース内の一部のグラフィカルな表現において、そのような制御ポートは、概して、構成要素の丸いコネクタ記号によって示される。
これらの異なる種類のポートが、データ処理グラフの柔軟な設計を可能にし、ポートの種類の重なり合う特性によってデータ及び制御フローの強力な組合せを許容する。特に、(「データポート」と呼ばれる)ある形態でデータを運ぶ2つの種類のポート、コレクションポート及びスカラポートが存在し、(「シリアルポート」と呼ばれる)直列実行を強制する2つの種類のポート、スカラポート及び制御ポートが存在する。データ処理グラフは、概して、いかなる接続された入力データポートも持たない「ソース構成要素」である1又は2以上の構成要素と、いかなる接続された出力データポートも持たない「シンク構成要素」である1又は2以上の構成要素とを有する。一部の構成要素は、接続された入力データポートと接続された出力データポートとの両方を有する。一部の実施形態において、グラフは、巡回することを許されず、したがって、有向非巡回グラフ(DAG,directed acyclic graph)でなければならない。この特徴は、下でより詳細に説明されるように、DAGの特定の特徴を利用するために使用され得る。
また、データ処理グラフの構成要素における専用の制御ポートの使用は、特定のその他の制御フロー技術を使用してはあり得ない計算の異なる部分の柔軟な制御を可能にする。例えば、データフローグラフの間に依存関係の制約を適用することができるジョブ制御の解決策は、単一のデータフローグラフ内の構成要素間の依存関係の制約を定義する制御ポートによって可能にされる細分化された制御を提供しない。さらに、逐次的に実行される異なるフェーズに構成要素を割り当てるデータフローグラフは、個々の構成要素を順番に並べる柔軟性を許容しない。例えば、単純なフェーズを使用してはあり得ない入れ子にされた制御トポロジーが、本明細書において説明される制御ポート及び実行セットを使用して定義され得る。このより大きな柔軟性は、より多くの構成要素が可能であるときに同時に実行されることを可能にすることによって性能を潜在的に向上させる可能性もある。
異なる方法で異なる種類のポートを接続することによって、作成者は、データ処理グラフの構成要素のポートの間の異なる種類のリンクの構成を規定することができる。例えば、ある種類のリンクの構成が、特定の種類のポートが同じ種類のポートに接続されることに対応する可能性があり(例えば、スカラ−スカラリンク)、別の種類のリンクの構成が、特定の種類のポートが異なる種類のポートに接続されることに対応する可能性がある(例えば、コレクション−スカラリンク)。これらの異なる種類のリンクの構成は、作成者がデータ処理グラフの一部に関連する意図された振る舞いを視覚的に特定する方法と、その振る舞いを可能にするために必要とされる対応する種類のコンパイルプロセスをコンパイラ/インタープリタ120に示す方法との両方として働く。本明細書において説明される例は異なる種類のリンクの構成を視覚的に表現するために異なる種類のポートに一意の形状を使用するが、システムのその他の実装形態は、異なる種類のリンクを提供し、それぞれの種類のリンクに一意の視覚的インジケータ(例えば、太さ、リンクの種類、色など)を割り当てることによって異なる種類のリンクの構成の振る舞いを区別する可能性がある。しかし、ポートの種類の代わりにリンクの種類を使用して、上で挙げられた3種類のポートによって可能なのと同じさまざまなリンクの構成を表すためには、4種類以上のリンク(例えば、スカラ−スカラ、コレクション−コレクション、制御−制御、コレクション−スカラ、スカラ−コレクション、スカラ−制御など)が存在することになるであろう
。その他の例は、異なる種類のポートを含むが、ただし、データ処理グラフ内でポートの種類を視覚的に明示的に示さない可能性がある。
コンパイラ/インタープリタ120は、実行するためにデータ処理グラフを準備するための手順を実行する。第1の手順は、構成要素の潜在的に入れ子にされた実行セットの階層を特定するための実行セット発見前処理手順である。第2の手順は、各実行セット内の構成要素の実行を制御するためにランタイムで状態機械を効果的に実装する制御コードを形成するためにコンパイラ/インタープリタ120が使用する対応する制御グラフを各実行セットに関して生じさせるための制御グラフ生成手順である。これらの手順の各々が、以下でより詳細に説明される。
少なくとも1つの入力データポートを有する構成要素は、各入力データ要素若しくはコレクション(又は複数の構成要素の入力ポート上のデータ要素及び/若しくはコレクションのタプル)に対して実行される処理を規定する。そのような規定の1つの形態は、1つの入力データ要素及び/若しくはコレクション又は入力データ要素及び/若しくはコレクションのタプルに対して実行される手順としての形態である。構成要素は、少なくとも1つの出力データポートを有する場合、対応する1つの出力データ要素及び/若しくはコレクション又は出力データ要素及び/若しくはコレクションのタプルを生成し得る。そのような手順は、高レベルのステートメントに基づく言語で(例えば、例えば、米国特許第8,069,129号明細書「Editing and Compiling Business Rules」において使用されたJavaのソースステートメント若しくはデータ操作言語(DML,Data Manipulation Language)を使用して)規定される可能性があり、又は何らかの完全に若しくは部分的にコンパイルされた形態で(例えば、Javaのバイトコードとして)提供される可能性がある。例えば、構成要素は、その構成要素の入力データ要素及び/若しくはコレクション並びにその構成要素の出力データ要素及び/若しくはコレクション、或いはより広く、そのようなデータ要素若しくはコレクションへの、又は入力を獲得し、出力データ要素若しくはコレクションを提供するために使用される手順若しくはデータオブジェクト(本明細書においては「ハンドル」と呼ばれる)への参照を引数が含む作業手順を有する可能性がある。
作業手順は、さまざまな種類である可能性がある。規定され得る手順の種類を限定することを意図することなく、ある種類の作業手順は、レコードフォーマットに従ってデータ要素に対する個別的な計算を規定する。単一のデータ要素は、テーブル(又はその他の種類のデータセット)からのレコードである可能性があり、レコードのコレクションは、テーブル内のレコードのすべてである可能性がある。例えば、単一のスカラ入力ポート及び単一のスカラ出力ポートを有する構成要素に関するある種類の作業手順は、1つの入力レコードを受け取ることと、そのレコードに対して計算を実行することと、1つの出力レコードを提供することとを含む。別の種類の作業手順は、複数のスカラ入力ポートから受け取られた入力レコードのタプルが複数のスカラ出力ポートにおいて送出される出力レコードのタプルを形成するためにどのようにして処理されるかを規定する可能性がある。
データ処理グラフによって規定される計算の意味的(semantic)定義は、グラフによって定義される計算の処理の順序付け及び同時性に対する制約及び/又は制約がないことを表すので元来並列的である。したがって、計算の定義は、結果が計算のステップの何らかの逐次的な順序付けと等価であることを必要としない。一方、計算の定義は、計算の部分を順番に並べることを必要とする特定の制約と、計算の部分の並列実行の制限を与える。
データ処理グラフの検討において、ランタイムシステム内の別個の「タスク」としての構成要素のインスタンスの実装形態は、順番に並べる制約及び並列実行の制約を表す手段であると考えられる。意味的定義に合致するように計算を実装する、タスクに基づく仕様
へのデータ処理グラフの実装形態のより詳細な検討は、グラフに基づく仕様自体の特徴の検討の後により完全に検討される。
概して、データ処理グラフ内の各構成要素は、グラフの実行中にコンピューティングプラットフォームにおいて何度かインスタンス化される。各構成要素のインスタンスの数は、複数の実行セットのうちのどれに構成要素が割り当てられるのかに依存する可能性がある。構成要素の複数のインスタンスがインスタンス化されるとき、2つ以上のインスタンスが並列に実行される可能性があり、異なるインスタンスがシステム内の異なるコンピューティングノードにおいて実行される可能性がある。ポートの種類を含む構成要素の相互接続が、規定されたデータ処理グラフによって認められる並列処理の性質を決定する。
概して、構成要素の異なるインスタンスの実行の間で状態は保持されないが、以下で検討されるように、構成要素の複数のインスタンスの実行にまたがる可能性がある永続的なストレージを明示的に参照するためにシステム内で特定のプロビジョニング(provision
)が行われる。
単一のレコードが単一の出力レコードを生成するためにどのようにして処理されるかを作業手順が規定し、ポートがコレクションポートであるものとして示される例においては、構成要素の単一のインスタンスが実行される可能性があり、連続的なレコードを処理して連続的な出力レコードを生じさせるために作業手順が反復される。この状況においては、反復毎に構成要素内で状態が保持されることがあり得る。
単一のレコードが単一の出力レコードを生成するためにどのようにして処理されるかを作業手順が規定し、ポートがスカラポートであるものとして示される例においては、構成要素の複数のインスタンスが実行される可能性があり、異なる入力レコードに関する作業手順の実行の間で状態は保持されない。
また、一部の実施形態において、システムは、上で導入された最も細分化された仕様に従わない作業手順をサポートする。例えば、作業手順は、例えば、スカラポートを通じて単一のレコードを受け付け、コレクションポートを通じて複数の出力レコードを提供する繰り返しを内部で実装する可能性がある。
上述のように、ある形態でデータを運ぶ2つの種類のデータポート、コレクションポート及びスカラポートが存在し、直列実行を強制する2つの種類のシリアルポート、スカラポート及び制御ポートが存在する。場合によっては、ある種類のポートが、別の種類のポートにリンクによって接続される可能性がある。それらの場合の一部が、下で説明される。場合によっては、ある種類のポートが、同じ種類のポートにリンクされる。2つの制御ポート間のリンク(「制御リンク」と呼ばれる)は、リンクを介してデータが送信されることを必要とせずに、リンクされた構成要素の間に直列実行の順序付けを課す。2つのデータポート間のリンク(「データリンク」と呼ばれる)は、データフローを提供し、さらに、スカラポートの場合は直列実行の順序付けの制約を強制し、コレクションポートの場合は直列実行の順序付けを必要としない。概して、典型的な構成要素は、入力データポート及び出力データポート(コレクションポートか又はスカラポートかのどちらか)並びに入力制御ポート及び出力制御ポートを含む少なくとも2種類のポートを有する。制御リンクは、上流の構成要素の制御ポートを下流の構成要素の制御ポートに接続する。同様に、データリンクは、上流の構成要素のデータポートを下流の構成要素のデータポートに接続する。
グラフィカルユーザインターフェースが、構成要素のセットから特定のデータ処理の計算を規定するために作成者によって使用される可能性があり、構成要素の各々が、特定の
タスク(例えば、データ処理タスク)を実行する。作成者は、ディスプレイスクリーン上に示されたキャンバス領域上でデータ処理グラフを組み立てることによってそのようにする。これは、構成要素をキャンバス上に置くことと、それらの構成要素のさまざまなポートを適切なリンクによって接続することと、その他の方法で構成要素を適切に構成することとを含む。以下の簡単な例は、コレクションポートの単一の対及び制御ポートの単一の対を有する構成要素の文脈での特定の振る舞いを示す。
図2aは、組み立てられているデータ処理グラフの一部が入力制御ポート及び出力制御ポート212A、214A並びに入力コレクションポート及び出力コレクションポート216A、218Aを有する第1の構成要素210Aを含む例を示す。制御リンク220A、222Aは、入力制御ポート及び出力制御ポート212A、214Aをデータ処理グラフ内のその他の構成要素の制御ポートに接続する。同様に、データリンク224A、226Aは、入力コレクションポート及び出力コレクションポート216A、218Aをデータ処理グラフ内のその他の構成要素のポートに接続する。コレクションポート216A、218Aは、図中で長方形によって表され、一方、制御ポート212A、214Aは、円形によって表される。
概して、入力コレクションポート216Aは、構成要素210Aによって処理されるデータを受け取り、出力コレクションポート214は、構成要素210Aによって処理されたデータを提供する。コレクションポートの場合、このデータは、概して、規定されていない数のデータ要素の順序付けられていないコレクションである。計算全体の特定のインスタンスにおいて、コレクションは、複数のデータ要素を含む可能性があり、又は単一のデータ要素を含む可能性があり、又はデータ要素を含まない可能性がある。一部の実装形態において、コレクションは、コレクション内の要素が順序付けられていないのか又は順序付けられているのか(及び順序付けられている場合は何が順序付けを決定するのか)を決定するパラメータに関連付けられる。以下でより詳細に説明されるように、順序付けられていないコレクションに関して、データリンクの受信側の構成要素によってデータ要素が処理される順序は、データリンクの送信側の構成要素がそれらのデータ要素を提供する順序と異なる可能性がある。したがって、コレクションポートの場合、それらのコレクションポートの間のデータリンクは、構成要素から構成要素へデータ要素を特定の順序で移動させる「ベルトコンベア」とは対照的に、データ要素が任意の順序で引き出される可能性があるデータ要素の「袋」として働く。
制御リンクは、構成要素が実行を開始するのかどうか及び構成要素がいつ実行を開始するのかを決定する制御情報を制御ポート間で運ぶために使用される。例えば、制御リンク222Aは、構成要素210Aが完了した後に(つまり、逐次的順序で)構成要素210Bが実行を開始するべきであることを示すか、又は構成要素210Bが実行を開始すべきでない(つまり、「抑制される」べきである)ことを示すかのどちらかである。したがって、データは制御リンク上で送信されないが、制御リンクは受信側の構成要素に信号を送信するものと見なされ得る。この信号が送信される方法は、実装形態に応じて変わる可能性があり、一部の実装形態においては、構成要素間の制御メッセージの送信を含む可能性がある。その他の実装形態は、実際の制御メッセージを送信することを含まない可能性があるが、その代わりに、受信側の構成要素によって表されるタスクに関連するプロセスを直接呼び出すか若しくは関数を呼び出すプロセス(又は抑制する場合にはそのような呼び出し又は関数呼び出しの省略)を含む可能性がある。
したがって、制御ポートをリンクする能力は、データ処理グラフの異なる構成要素によって表されるデータ処理の計算の異なる部分の間の相対的な順序付けを作成者が制御することを可能にする。加えて、構成要素の制御ポートを使用するこの順序付けメカニズムを提供することは、データフロー及び制御フローに関連する論理の混合を可能にする。実際
、これは、データが制御に関する判断を行うために使用されることを可能にする。
図2Aに示された例において、制御ポートは、その他の制御ポートに接続し、データポートは、その他のデータポートに接続する。しかし、データポート上のデータは、元来、2つの異なる種類の情報を運ぶ。第1の種類は、データ自体であり、第2の種類は、ともかくデータの存在である。この第2の種類の情報は、制御信号として使用され得る。結果として、スカラデータポートが制御ポートに接続されることを可能にすることによってさらなる柔軟性を与えることが可能になる。
図2Bは、スカラポートを制御ポートに接続する能力によって与えられた柔軟性を利用する例示的なデータ処理グラフ230を示す。
データ処理グラフ230は、「日付情報を計算する」とラベル付けされた第1の構成要素231と、「月次報告を行うか?」とラベル付けされた第2の構成要素232と、「週次報告を行うか」とラベル付けされた第3の構成要素233と、「月次報告」とラベル付けされた第4の構成要素234と、「週次報告を行うか?」とラベル付けされた第5の構成要素235と、「週次報告」とラベル付けされた第6の構成要素236とを取りあげる。データ処理グラフ230は、日次報告か、日次報告及び週次報告か、又は3種類すべての報告かのいずれかを常に生成する手順を実行する。これらの結果のうちのどれが発生するかに関する判断は、第1の構成要素231によって提供される特定の日付情報の評価に依存する。したがって、図2Bは、実行を効果的に制御するデータの例を示す。
実行は、第1の構成要素231がその第1の構成要素231の出力スカラポートから第2の構成要素232の入力スカラポート及び第3の構成要素233の入力スカラポートに日付情報を提供するときに始まる。接続された入力制御ポートを持たない第2の構成要素232は、直ちに仕事に取りかかる。第3の構成要素233を含むすべてのその他の構成要素は、(1又は2以上の)接続された入力制御ポートを有し、好適な肯定の制御信号によって作動されるのを待たなければならない。
第2の構成要素232は、この日付情報を検査し、月次報告を行うことが適切かどうかを判定する。2つのあり得る結果が存在し、つまり、月次報告が必要とされるか、又は月次報告が必要とされないかのどちらかである。第2の構成要素232と第3の構成要素233との両方が、2つの出力スカラポートを有し、一方の出力スカラポート(つまり、選択されたポート)上に肯定の制御信号として働くデータ要素を提供し、他方の出力スカラポート上に否定の制御信号として働くデータ要素を提供する選択機能を実行するように構成される。
日付情報に基づいて、第2の構成要素232が月次報告が必要とされないと判定する場合、第2の構成要素232は、その第2の構成要素232の下の出力スカラポートから第3の構成要素233の入力制御ポートにデータ要素を送信する。このデータ要素は、第2の構成要素232が第1の構成要素231によって提供されたデータを処理し終えたことと、第3の構成要素233がその第3の構成要素233の受け取られた日付情報データを今や処理し始め得ることとを第3の構成要素233に示す肯定の制御信号として解釈される。
一方、第2の構成要素232は、第1の構成要素231によって提供された日付情報に基づいて、月次報告が必要とされると判定する場合、代わりに、その第2の構成要素232の出力スカラポートから第4の構成要素234の入力制御ポートに肯定の制御信号として解釈されるデータ要素を送信する。データ要素は単なる制御信号ではないが、第4の構成要素234は、そのデータ要素がその第4の構成要素234の入力制御ポートに提供さ
れるので、そのデータ要素を肯定の制御信号として扱う。第4の構成要素234は、データ要素内の実データを無視し、単に、データ要素の存在を肯定の制御信号として使用する。
第4の構成要素234は、月次報告を生成し始める。完了すると、第4の構成要素234は、その第4の構成要素234の出力制御ポートから第3の構成要素233の入力制御ポートに制御信号を出力する。これは、第3の構成要素233に、それ(すなわち、第3の構成要素233)が第1の構成要素231がそれに供給した日付情報を今や処理し始めることができることを伝える。
したがって、第3の構成要素233は、その第3の構成要素233の入力スカラポートを介して第1の構成要素231によって提供されたデータをいつも最終的に処理する。唯一の違いは、どちらの構成要素が処理を開始するようにその第3の構成要素233をトリガするのか、つまり、第2の構成要素232であるのか又は第4の構成要素234であるのかという点にある。これは、どちらかのポート(又は両方のポート)において受け取られた肯定の制御信号が処理をトリガするように、第3の構成要素233の2つの入力制御ポートがOR論理を使用して組み合わされるからである。
グラフ230の残りは、基本的に同じように、ただし、第3の構成要素233が第2の構成要素232の役割を引き継ぎ、第6の構成要素236が第4の構成要素234の役割を引き継ぐようにして動作する。
第2の構成要素232か又は第4の構成要素234かのどちらかから来るその第3の構成要素233の入力制御ポートの制御信号によって作動されると、第3の構成要素233は、第1の構成要素231を第3の構成要素233に接続するデータリンクを介して第1の構成要素231によって提供された日付情報を検査する。第3の構成要素233は、日付情報から、週次報告が必要とされないと判定する場合、その第3の構成要素233の出力スカラポートのうちの一方から第5の構成要素235の入力制御ポートに肯定の制御信号として解釈されるデータ要素を送信する。
一方、第3の構成要素233は、週次報告が必要とされると判定する場合、その第3の構成要素233の他方の出力スカラポートから第6の構成要素236の入力制御ポートに肯定の制御信号として解釈されるデータ要素を送信する。第6の構成要素236は、週次報告を生成し始める。完了すると、第3の構成要素233は、その第3の構成要素233の出力スカラポートから第5の構成要素235の入力制御ポートに肯定の制御信号として解釈されるデータ要素を送信する。
したがって、第5の構成要素235は、いつも最終的に実行され、唯一の違いは、結局のところ、第3の構成要素233が実行を開始するようにその第5の構成要素235をトリガするのか又は第6の構成要素236が実行を開始するようにその第5の構成要素235をトリガするのかということである。第3の構成要素233又は第6の構成要素236のどちらかから制御信号を受け取ると、第5の構成要素235は、日次報告を生成する。
スカラデータポートとコレクションデータポートとの両方の使用も示す図2Cに例が示される。
図2Cは、「入力ファイル」とラベル付けされた第1の構成要素241と、「要求からファイル名を取得する」とラベル付けされた第2の構成要素242と、「読まれたファイル」とラベル付けされた第3の構成要素243と、「不良レコードか?」とラベル付けされた第4の構成要素244と、「無効なレコード」とラベル付けされた第5の構成要素2
45と、「不良レコードのファイル名を生じさせる」とラベル付けされた第6の構成要素246と、「何らかの確認エラーか?」とラベル付けされた第7の構成要素247と、「アラートを送信する」とラベル付けされた第8の構成要素248とを有するデータ処理グラフ240を示す。このグラフは、不良レコードをファイルに書き、そのような不良レコードを検出するとアラートを送信するように意図される。
構成要素241及び243は、データのソースとして働く構成要素の例であり、構成要素245は、データのシンクとして働く構成要素の例である。構成要素241及び243は、(ローカルファイルシステム又は分散型ファイルシステムなどの)ファイルシステム内にさまざまなフォーマットのいずれかで記憶される可能性がある入力ファイルをそれらの構成要素のソースとして使用する。入力ファイル構成要素は、ファイルの内容を読み、そのファイルからレコードのコレクションを生成する。(構成要素243に示される)スカラ入力ポートは、読まれるファイルの場所(例えば、パス又はユニフォームリソースロケータ)及び使用されるレコードフォーマットを規定するデータ要素を提供する。場合によっては、場所及びレコードフォーマットは、入力ファイル構成要素にパラメータとして提供される可能性があり、その場合、入力スカラポートは、(構成要素241のように)いかなる上流の構成要素にも接続される必要がなく、示される必要がない。(構成要素241と構成要素243との両方に示される)コレクション出力ポートは、レコードのコレクションを提供する。同様に、(構成要素245などの)出力ファイル構成要素は、入力コレクションポートを介して受け取られたレコードのコレクションを出力ファイルに書く(出力ファイルの場所及びレコードフォーマットは、入力スカラポートによって規定されていてもよい可能性がある)。入力ファイル又は出力ファイル構成要素は、(構成要素245などの)別の構成要素の制御ポートにリンクされる制御入力又は出力ポートを含む可能性もある。
示されたデータ処理グラフ240において、より大きな破線の長方形内にある構成要素は、実行セットの一部である。この実行セットは、この実行セット内に入れ子にされた別の実行セットを含む。やはり破線の長方形内に示されるこの入れ子にされた実行セットは、第4の構成要素244のみを含む。実行セットは、下でより詳細に検討される。
動作中、第1の構成要素241は、入力ファイルを読む。第1の構成要素241は、実行されているとき、入力ファイル内のレコードのコレクションを、出力コレクションデータポートから第2の構成要素242の入力コレクションデータポートへのデータリンクを介して第2の構成要素に提供する。下でより詳細に説明されるように、第2の構成要素242及び(同じ実行セット内にある)その他の下流の構成要素の異なるインスタンスが、コレクション内の各レコードに関して実行される可能性がある。第2の構成要素242は、その第2の構成要素242の制御入力に何も接続されていないので、直ちに処理を開始する。完了すると、第2の構成要素242は、その第2の構成要素の出力スカラポート上でファイル名を提供する。このファイル名は、それぞれの入力スカラポートにおいて第3の構成要素243と第6の構成要素246との両方によって受け取られる。
第3の構成要素243は、ファイル名によって特定されたファイルを直ちに読み、第4の構成要素244のインスタンスの入力スカラポートに配信するために出力コレクションポート上でファイルの内容を提供する。一方、第6の構成要素246は、同じファイル名を受け取り、第5の構成要素245及び第7の構成要素247の対応する入力スカラポートに接続された出力スカラポートの両方においてその第6の構成要素246が提供する別のファイル名を出力する。
第6の構成要素246からのファイル名及び第4の構成要素244からの不良レコードを受け取ると、第5の構成要素245は、ファイル名が第6の構成要素246によって特
定される出力ファイルに不良レコードを書く。
第7の構成要素247は、そのデータ入力ポートにおいてデータを受け取ると実行されるように準備されない唯一の構成要素である。出力ファイルに書く第5の構成要素245が終了されるとき、第5の構成要素245は、その第5の構成要素245の制御出力ポートから第7の構成要素247の入力制御ポートに制御信号を送信する。第7の構成要素247は、エラーがあったと判定する場合、第8の構成要素248の入力スカラポートにデータを提供する。これは、第8の構成要素248にアラームを生じさせる。これは、制御ポートがデータ処理グラフ内の特定の構成要素の実行を制限するために使用される例を与える。
別の構成要素の状態に基づいてある構成要素における処理を制御する能力が、複数の上流の構成要素のセットがすべて特定の状態に到達したときに処理を制御する可能性をその能力に伴っていることは明らかであるに違いない。例えば、データ処理グラフは、同じ制御ポートへの又は同じ制御ポートからの複数の制御リンクをサポートし得る。代替的に、一部の実施形態において、構成要素は、複数の入力制御ポート及び出力制御ポートを含み得る。デフォルトの論理が、コンパイラ/インタープリタ120によって適用される可能性がある。作成者は、制御信号がどのように組み合わされるかを決定するためのカスタムの論理も提供する可能性がある。これは、上流の構成要素のさまざまな制御リンクに当てはまり、特定の論理的状態が達せられるとき(例えば、すべての上流の構成要素が完了したとき、及びデフォルトのOR論理の場合は少なくとも1つが作動制御信号を送信したとき)にのみ構成要素の開始をトリガする組合せ論理を好適に構成することによって行われ得る。
概して、制御信号は、処理の開始をトリガするか又は処理の抑制をトリガする信号である可能性がある。前者は、「肯定の制御信号」であり、後者は「否定の制御信号」である。しかし、タスクが呼び出される(処理の開始をトリガする)べきか否かを判定するために組合せ論理が使用される場合、論理が、すべての入力が否定の制御信号を与えるときにのみタスクが呼び出されるように通常の解釈を「逆転させる」ことがあり得る。概して、組合せ論理は、下でより詳細に説明される制御グラフに対応する状態機械の次の状態を決定するための任意の「真理値表」を提供する可能性がある。
接続されていない制御ポートは、デフォルトの状態を割り当てられる可能性がある。一実施形態において、デフォルトの状態は、正の制御信号に対応する。下でより詳細に説明されるように、これは、データ処理グラフを表す制御グラフ内の暗黙的な開始構成要素及び終了構成要素の使用によって実現され得る。
さまざまな構成要素の異なる種類のデータポートは、データがそれらの構成要素をリンクする入力ポート及び出力ポートの種類に応じて異なる方法で構成要素間のリンクを通り越すことを可能にする。上述のように、スカラポートは、最大で1つのデータ要素(すなわち、0個か又は1つのデータ要素)の(スカラ出力ポートのための)生成又は(スカラ入力ポートのための)消費を表す。一方、コレクションポートは、潜在的に複数のデータ要素のセットの(コレクション出力ポートのための)生成又は(コレクション入力ポートのための)消費を表す。単一のデータ処理グラフにおいて両方の種類のデータポートをサポートすることによって、計算リソースが、より効率的に割り振られる可能性があり、より複雑な制御フロー及びデータフローが、タスクの間で生じさせられる可能性があり、作成者が望まれる振る舞いを簡単に示すことを可能にする。
図3Aを参照すると、データ処理グラフ300は、一連の3つの接続された構成要素、第1の構成要素(A1)302、第2の構成要素(B1)304、及び第3の構成要素(
C1)306を含む。第1の構成要素は、コレクション型入力ポート308及びスカラ型出力ポート310を含む。第2の構成要素304は、スカラ型入力ポート312及びスカラ型出力ポート314を含む。第3の構成要素は、スカラ型入力ポート316及びコレクション型出力ポート318を含む。
第1の構成要素302のスカラ出力ポート310を第2の構成要素304のスカラ入力ポート312に接続する第1のリンク320は、データが第1の構成要素302と第2の構成要素304との間を通ることを可能にすることと、同時に、第1の構成要素及び第2の構成要素302、304の直列実行を強制することとの両方を行う。同様に、第2の構成要素304のスカラ出力ポート314を第3の構成要素306のスカラ入力ポート316に接続する第2のリンク322は、データが第2の構成要素304と第3の構成要素306との間を通ることを可能にすることと、第2の構成要素及び第3の構成要素304、306の直列実行を強制することとの両方を行う。
図3Aのスカラポートの相互接続が原因で、第2の構成要素304は、第1の構成要素302が完了した(第1のリンク320を介して単一のデータ要素を渡した)後にのみ実行を開始し、第3の構成要素306は、第2の構成要素304が完了した(第2のリンク322を介して単一のデータ要素を渡した)後にのみ実行を開始する。つまり、データ処理グラフの3つの構成要素の各々は、厳格な順番A1/B1/C1で1回実行される。
一部の例においては、構成要素のうちの1又は2以上が抑制状態にされる可能性があり、つまり、1又は2以上の構成要素が実行されず、したがって、それらの構成要素の出力ポートからいかなるデータ要素も渡さない。構成要素が抑制されることを可能にすることは、例えば、いかなる有用な処理も実行しない構成要素が計算リソース(例えば、プロセス又はメモリ)がそれらの構成要素につぎ込まれることを必要としないことを保証することによってリソースが無駄にされることを防止する。抑制された構成要素の出力ポートにのみ接続されたスカラ入力ポートを有するすべての構成要素は、それらの構成要素がデータを受け取らないので実行されない。例えば、第1の構成要素302が抑制状態にされる場合、第2の構成要素304のスカラ入力ポート312は、第1の構成要素302のスカラ出力ポート310からデータを受け取らず、したがって、実行されない。第2の構成要素304が実行されないので、第3の構成要素306のスカラ入力ポート316は、第2の構成要素304のスカラ出力ポート314からデータを受け取らず、やはり実行されない。したがって、2つのスカラポートの間で渡されるデータは、2つのリンクされた制御ポートの間で送られる信号と同様の肯定の制御信号としても働く。
図3Aの例示的なデータ処理グラフにおいて、第1の構成要素302の入力ポート308及び第3の構成要素318の出力ポートは、たまたまコレクションポートであり、コレクションポートは、第1、第2、及び第3の構成要素302、304、306を接続するスカラポートによって課されるそれらの構成要素の直列実行の振る舞いに影響を与えない。
概して、コレクションポートは、構成要素の間でデータ要素のコレクションを渡すことと、同時に、そのセット内のデータ要素を並べ替える承諾をランタイムシステムに与えることとの両方のために使用される。順序付けられていないコレクションのデータ要素の並べ替えは、データ要素間で計算の状態への依存性がないか、又は各データ要素が処理されるときにアクセスされるグローバルな状態が存在する場合に最終状態がそれらのデータ要素が処理された順序に依存しないかのどちらの理由で許容される。並べ替えのこの承諾は、実行時まで並列処理についての判断を遅らせる柔軟性を提供する。
図3Bを参照すると、データ処理グラフ324は、一連の3つの接続された構成要素、
第1の構成要素(A2)326、第2の構成要素(B2)328、及び第3の構成要素(C2)330を含む。第1の構成要素326は、コレクション型入力ポート332及びコレクション型出力ポート334を含む。第2の構成要素328は、コレクション型入力ポート336及びコレクション型出力ポート338を含む。第3の構成要素330は、コレクション型入力ポート340及びコレクション型出力ポート342を含む。
3つの構成要素326、328、330の各々は、1又は2以上の入力要素のコレクションが1又は2以上の出力要素のコレクションを生じさせるためにどのようにして処理されるかを規定する。特定の入力要素と特定の出力要素との間に1対1の対応があるとは限らない。例えば、第1の構成要素326と第2の構成要素328との間のデータ要素344の第1のコレクションの中のデータ要素の数は、第2の構成要素328と第3の構成要素330との間のデータ要素346の第2のコレクションの中の要素の数とは異なる可能性がある。コレクションポートの間の接続に課される制約は、コレクション内の各データ要素が、それらのデータ要素が処理される順序に関連して第1の構成要素326と第2の構成要素328との間及び第2の構成要素328と第3の構成要素330との間で任意の並べ替えを許容しながらコレクションポートからコレクションポートへと渡されることだけである。代替的に、その他の例において、コレクションポートは、順序を維持するように構成されていてもよい可能性がある。この例において、3つの構成要素326、328、330は、一緒に開始し、同時に実行され、パイプライン並列処理を許容する。
図1に関連して説明されたコンパイラ/インタープリタ120は、コレクションポート間の接続を認識し、実行されている計算にとって適切である方法で計算を実行可能コードに変換するように構成される。コレクションデータリンクの順序付けられていない性質は、これがどのようにして実現されるかの柔軟性をコンパイラ/インタープリタ120に与える。例えば、たまたま、第2の構成要素328に関して、各出力要素が単一の入力要素に基づいて計算される(つまり、データ要素にまたがって保持される状態がない)場合、コンパイラ/インタープリタ120は、(例えばランタイムで利用可能な計算リソースに応じて)データ要素毎に構成要素の1つのインスタンスずつものインスタンスをインスタンス化することによってランタイムシステムがデータ要素の処理を動的に並列化することを可能にし得る。特別な場合に、入力コレクションポートを有する構成要素のデータ要素にまたがって状態が保持されていてもよい可能性がある。しかし、通常の場合でも、ランタイムシステムは、構成要素のタスクを並列化することを可能にされる可能性がある。例えば、ランタイムシステムは、グローバルな状態が保持されていないことを検出する場合、タスクを並列化することを可能にされ得る。一部の構成要素が状態を保持することをサポートするように構成される可能性もあり、その場合、並列処理は許容されない可能性がある。コレクションが順序付けられていない場合、データ要素の間で順序が維持される必要がないという事実は、第2の構成要素328の各インスタンスがそのインスタンスの出力データ要素が利用可能になり次第そのインスタンスの出力データ要素を第3の構成要素330に提供することができ、第3の構成要素330が第2の構成要素328のすべてのインスタンスが終了する前にそれらのデータ要素を処理し始めることができることを意味する。
一部の例において、グラフの作成者は、1つの構成要素のコレクション型出力ポートを別の構成要素のスカラ型入力ポートに接続することによって、データのコレクションの中のデータ要素の処理が動的に並列化され得ることを明示的に示すことができる。また、そのような指示は、コレクションの異なる要素の処理の間で状態が保持されないことを必要とする。図3Cを参照すると、データ処理グラフ348は、一連の3つの接続された構成要素、第1の構成要素(A3)350、第2の構成要素(B3)352、及び第3の構成要素(C3)354を含む。第1の構成要素350は、コレクション型入力ポート356及びコレクション型出力ポート358を含む。第2の構成要素352は、スカラ型入力ポ
ート360及びスカラ型出力ポート362を含む。第3の構成要素354は、コレクション型入力ポート364及びコレクション型出力ポート366を含む。
第1の構成要素のコレクション型出力ポート358は、第1のリンク368によって第2の構成要素352のスカラ型入力ポート360に接続され、第2の構成要素352のスカラ型出力ポート362は、第2のリンク370によってコレクション型入力ポート364に接続される。下でより詳細に説明されるように、コレクション型出力ポートからスカラ型入力ポートへのリンクは、実行セットへの入口点を示唆し、スカラ型出力ポートからコレクション型入力ポートへのリンクは、実行セットの出口点を示唆する。極めて広く、下でより詳細に説明されるように、実行セットに含まれる構成要素は、データ要素のコレクションからのデータ要素を処理するためにランタイムコントローラによって動的に並列化され得る。
図3Cにおいて、第1の構成要素350のコレクション型出力ポート358と第2の構成要素352のスカラ型入力ポート360との間のリンク368は、実行セットへの入口点を示唆する。第2の構成要素352のスカラ型出力ポート362と第3の構成要素354のコレクション型入力ポート364との間のリンク370は、実行セットの出口点を示唆する。つまり、第2の構成要素352は、実行セットの唯一の構成要素である。
第2の構成要素352が実行セットに含まれるので、第1の構成要素350のコレクション型出力ポート358から受け取られるそれぞれのデータ要素のために第2の構成要素352の別々のインスタンスが起動される。別々のインスタンスの少なくとも一部は、実行時まで行われない可能性がある判断に応じて並列に実行され得る。この例において、第1の(350)及び第3の(354)構成要素は、一緒に開始し、同時に実行され、一方、第2の構成要素(352)は、リンク368を介して受け取られるコレクション内のそれぞれのデータ要素のために1回実行される。代替的に、第2の構成要素352は、コレクション内の複数のデータ要素のそれぞれのタプルのために1回実行される可能性がある。
2 実行セット
図1に関連して上で説明されているように、コンパイラ/インタープリタ120は、実行するためにデータ処理グラフを準備するためにデータ処理グラフに実行セット発見前処理手順を実行する。通常の意味で、本明細書において使用されるとき、用語「実行セット」は、一体として呼び出され、出力コレクションポートのデータ要素の一部などのデータの一部に適用され得る1又は2以上の構成要素のセットを指す。したがって、それぞれの入力データ要素(又は実行セットの1若しくは2以上の入力ポートに与えられる複数の入力データ要素のタプル)のために、実行セット内の各構成要素の最大で1つのインスタンスが実行される。実行セット内で、スカラポート及び制御ポートへのリンクによって、順番に並べる制約が課され、実行セット内の構成要素の並列実行は、順番に並べる制約が破られない限りにおいて容認される。コンパイラ/インタープリタ120によって実行セットのために準備されるコードは、コードが実行されるときに構成要素に対応するタスクがどのようにして実行されるべきか(例えば、並列処理の度合い)を示す埋め込まれた情報(例えば、アノテーション又は修飾子(modifier))を含み得る。受け取られたコレクション内の複数のデータ要素のタプルのために実行セットの1つのインスタンスが実行される例において、タプルは、例えば、決まった数のデータ要素、又は何らかの特徴(例えば、共通のキー値)を共有するいくつかのデータ要素からなる可能性がある。並列に実行されることを可能にされる少なくともいくつかの構成要素が存在する例において、実行セットは、複数のタスク、例えば、実行セットまるごとのためのタスクと、構成要素のうちの1又は2以上のインスタンスの同時実行のための1又は2以上のサブタスクとを使用して実施される可能性がある。したがって、実行セットの異なるインスタンスを表すタスクは
、それら自体、例えば、同時に実行され得るサブタスクによってさらに細分化されたタスクに分解される可能性がある。異なる実行セットのためのタスクは、概して、独立して並列に実行され得る。したがって、例えば、大きなデータセットが百万個のレコードを有する場合、百万個の独立したタスクが存在する可能性がある。タスクの一部は、コンピューティングプラットフォーム150の異なるノード152上で実行される可能性がある。タスクは、単一のノード152上でさえも同時に効率的に実行され得る軽量スレッドを使用して実行される可能性がある。
概して、(1又は2以上の)割り当てアルゴリズムによって特定された実行セット(すなわち、ルート実行セット(root execution set)以外の実行セット)は、実行セットの境界の「駆動(driving)」スカラデータポートを通じてデータ要素を受け取る。実行セ
ットの駆動入力スカラデータポートにおいて受け取られた各データ要素に関して、実行セット内の構成要素の各々は、1回実行される(作動される場合)か又はまったく実行されない(抑制される場合)。上流のコレクションポートから実行セットに利用され得る複数のデータ要素を処理するために、実行セットの複数のインスタンスがインスタンス化され、並列に実行され得る。実行セットに関する並列処理の度合いは、ランタイムで決定される可能性があり(実行セットを並列化しないあり得る判断を含み)、ランタイムで利用可能な計算リソースによってのみ制限される。実行セットの独立したインスタンスの個々の出力は、順序に関係なく実行セットの(1又は2以上の)出力ポートにおいて集められ、下流の構成要素に利用され得るようにされる。代替的に、その他の実施形態においては、駆動入力スカラデータポートを必要としないルート実行セット以外の実行セットが(場合によってはユーザ入力に基づいて)認識される可能性がある。駆動入力スカラデータポートのないそのような実行セットは、本明細書において説明される手順を使用して、適切な場合(例えば、下で説明されるラッチされた実行セットのために)単一のインスタンスにおいて、又は複数のインスタンスにおいて並列に実行される可能性がある。例えば、実行セットが実行される回数及び/又は実行される実行セットの並列なインスタンスの数を決定するパラメータが設定される可能性がある。
極めて広く、実行セット発見手順は、データ要素の順序付けられていないコレクションの入力要素にセットとして適用されるべきデータ処理グラフ内の構成要素のサブセットを決定する割り当てアルゴリズムを使用する。割り当てアルゴリズムは、データ処理グラフを詳しく調べ(traverse)、割り当て規則に基づいて各構成要素をサブセットに割り当てる。下の例において明らかにされるように、所与のデータ処理グラフは、実行セットの階層の異なるレベルで入れ子にされたいくつかの実行セットを含む可能性がある。
本明細書において説明されるデータ処理グラフにおいては、2種類のデータポート、すなわち、スカラデータポート及びコレクションデータポートが存在する。概して、リンクされた構成要素の対(すなわち、図4Aから4Dの上流の構成要素A 402及び下流の構成要素B 404)は、(それらの構成要素が別の理由で異なる実行セット内にあるのでない限り)それらの構成要素が同じ種類のポートの間のリンクによって接続される場合、デフォルトで同じ実行セット内にある。図4Aにおいて、構成要素A 402は、スカラ型の出力ポート406を有し、構成要素B 404は、スカラ型の入力ポート408を有する。構成要素A 402と構成要素B 404との間のリンク410が2つのスカラ型ポートを接続するので、構成要素A及びB 402、404は、この例において同じ実行セット内にある。図4Aにおいては、構成要素A 402と構成要素B 404との間のリンクがスカラ−スカラリンクであるので、0データ要素か又は1データ要素かのどちらかがリンク410を介して上流の構成要素A 402と下流の構成要素B 404との間で渡される。上流の構成要素A 402の処理が完了すると、(上で説明されているように)上流の構成要素A 402が抑制されない限り、データ要素がリンク410を介して渡され、上流の構成要素A 402が抑制される場合、データ要素はリンク410を介
して渡されない。
図4Bを参照すると、構成要素A 402は、コレクション型の出力ポート412を有し、構成要素B 404は、コレクション型の入力ポート414を有する。構成要素A 402と構成要素B 404との間のリンク410が2つのコレクション型ポートを接続するので、構成要素A 402及び構成要素B 404は、この例においてやはり同じ実行セット内にある。図4Bにおいては、構成要素A 402と構成要素B 404との間のリンク410がコレクション−コレクションリンクであるので、データ要素のセットが、リンク410を介して上流の構成要素と下流の構成要素との間で渡される。
リンクの両側のポートの種類が合致しないとき、実行セットの階層のレベルの暗黙的な変化がある。特に、合致しないポートは、実行セットの階層の特定のレベルの実行セットの入口点又は出口点を表す。一部の例において、実行セットの入口点は、コレクション型出力ポートとスカラ型入力ポートとの間のリンクとして定義される。図4Cにおいては、構成要素A 402の出力ポート416がコレクション型ポートであり、構成要素B 404の入力ポート418がスカラ型ポートであるので、実行セットの入口点424の一例が、構成要素A 402と構成要素B 404との間のリンク410に示される。
一部の例において、実行セットの出口点は、スカラ型出力ポートとコレクション型入力ポートとの間のリンクとして定義される。図4Dを参照すると、構成要素A 402の出力ポート420がスカラ型ポートであり、構成要素B 404の入力ポート422がコレクション型ポートであるので、実行セットの出口点426の一例が、構成要素A 402と構成要素B 404との間のリンク410に示される。
コンパイラ/インタープリタ120のコンパイル及び/又は解釈の前に実施される割り当てアルゴリズムは、実行セットの入口点及び実行セットの出口点を使用して、データ処理グラフ内に存在する実行セットを発見する。
2.1 スタックに基づく割り当てアルゴリズム
例示を目的として、第1の例において、データ処理グラフは、単純な1次元のグラフ構造を有し、比較的簡単な割り当てアルゴリズムが、スタックに基づくアルゴリズムを使用して示される。スタックに基づく割り当てアルゴリズムにおいて、データ処理グラフ内の各構成要素は、分割文字「/」によって分けられた整数からなる1又は2以上の「ID文字列」によってラベル付けされる。所与の構成要素のID文字列内に分割文字「/」が現れる回数は、実行セットの階層内の構成要素のレベルを決定する。一部の例において、構成要素は、複数の入力リンクを有する可能性があり、したがって、複数のID文字列を有する可能性がある。そのような場合、アルゴリズムは、どのID文字列を使用すべきかを決定するための下でより詳細に説明される規則を有する。
スタックに基づく割り当てアルゴリズムの一例においては、コンパイラ/インタープリタ120が、以下の手順に従って上流から下流に向かってデータ処理グラフを進む。最初に、(1又は2以上の)最も上流の構成要素が、その構成要素が実行セットの階層のルートレベルの構成要素であることを示すID文字列「0」によってラベル付けされる。
それから、最も上流の構成要素から最も下流の構成要素までの経路上のリンク及び構成要素が詳しく調べられる。上流の構成要素のコレクション型出力ポートと下流の構成要素のコレクション型入力ポートとの間のリンクが遭遇される場合、上流の構成要素のID文字列が下流の構成要素に伝搬される。同様に、上流の構成要素のスカラ型出力ポートと下流の構成要素のスカラ型入力ポートとの間のリンクが遭遇される場合、上流の構成要素のID文字列が下流の構成要素に伝搬される。
上流の構成要素のコレクション型出力ポートと下流の構成要素のスカラ型入力ポートとの間のリンクが遭遇される場合、下流の構成要素は、「/n」をラベルの末尾に付加されるようにして上流の構成要素のラベルを含むラベルを割り当てられ、ここで、nは、1+<
既存のID文字列の整数の中の最大>である。上流の構成要素のスカラ型出力ポートと下流
の構成要素のコレクション型入力ポートとの間のリンクが遭遇される場合、下流の構成要素は、ラベルの一番右のID文字列の整数(及びその整数の分割文字「/」)が削除されるようにして上流の構成要素のラベルを含むラベルを割り当てられる。
一部の例においては、さまざまな状況が、規則に違反するものと見なされる可能性があり、アルゴリズムのエラーを引き起こす(例えば、構成要素が実行セットの階層の同じレベルに2つの異なるID文字列を有する場合、又は実行セット内の閉路の存在)。
図5を参照すると、上述のスタックに基づく割り当てアルゴリズムが、例示的なデータ処理グラフ550に適用され、(ルートの「レベル0」実行セット551の他の)2つの実行セット、すなわち、第1の「レベル1」実行セット570と、第1の「レベル1」実行セット670内に入れ子にされた第2の「レベル2」実行セット572とを発見する結果となる。2つの実行セット570、572の発見にたどり着くと、スタックに基づく割り当てアルゴリズムは、まず、最も上流の構成要素、第1のデータセット656をID文字列「0」によってラベル付けする。それから、スタックに基づく割り当てアルゴリズムは、データ処理グラフ550を通る1次元の経路の構成要素を詳しく調べる。経路を詳しく調べる際、スタックに基づく割り当てアルゴリズムは、まず、第1のデータセット556から第1の構成要素558へのリンクを詳しく調べる。第1のデータセット556の出力ポートがコレクション型出力ポートであり、第1の構成要素558の入力ポートがスカラ型入力ポートであるので、第1の構成要素558は、ID文字列の末尾に「/1」を付加された第1のデータセット556のID文字列であるID文字列「0/1」を割り当てられ、ここで、1は、すべての既存のID文字列の整数の中の最大+1である。概して、第1の構成要素558のID文字列に「/1」を付加することは、ルートの「レベル0」実行セット551から「レベル1」実行セット570への遷移の指示である。一部の例において、この遷移は、第1の実行セットの入口点インジケータ557を使用して表される。
そして、割り当てアルゴリズムは、第1の構成要素558から第2の構成要素560へのリンクを詳しく調べる。第1の構成要素558の出力ポートがコレクション型出力ポートであり、第2の構成要素560の入力ポートがスカラ型入力ポートであるので、第2の構成要素560は、ID文字列の末尾に「/2」が付加された第1の構成要素558のID文字列であるID文字列「0/1/2」を割り当てられ、ここで、2は、すべての既存のID文字列の整数の中の最大+1である。概して、第2の構成要素560のID文字列に「/2」を付加することは、「レベル1」実行セット570から「レベル2」実行セット572への遷移の指示である。一部の例において、この遷移は、第2の実行セットの入口点インジケータ559を使用して表される。
そして、割り当てアルゴリズムは、第2の構成要素560から第3の構成要素562へのリンクを詳しく調べる。第2の構成要素560の出力ポートがスカラ型出力ポートであり、第3の構成要素562の入力ポートがスカラ型入力ポートであるので、第2の構成要素560のID文字列(すなわち、「0/1/2」)が第3の構成要素562に伝搬される。
そして、割り当てアルゴリズムは、第3の構成要素562から第4の構成要素564へのリンクを詳しく調べる。第3の構成要素562の出力ポートがスカラ型出力ポートであり、第4の構成要素564の入力ポートがコレクション型入力ポートであるので、第4の
構成要素は、ID文字列の一番右のID文字列「2」(及びそのID文字列の分割文字「/」)が削除された第3の構成要素562のID文字列であるID文字列「0/1」を割り当てられる。概して、第3の構成要素562のID文字列から「/2」を削除することは、「レベル2」実行セット572から「レベル1」実行セット570への遷移の指示である。一部の例において、この遷移は、第1の実行セットの出口点インジケータ563を使用して表される。
そして、割り当てアルゴリズムは、第4の構成要素564から第5の構成要素566へのリンクを詳しく調べる。第4の構成要素564の出力ポートがスカラ型出力ポートであり、第5の構成要素566の入力ポートがコレクション型入力ポートであるので、第5の構成要素566は、第4の構成要素564の一番右のID文字列の整数(及びその整数の分割文字「/」)が削除された第4の構成要素564のID文字列であるID文字列「0」を割り当てられる。概して、第4の構成要素564のID文字列から「/1」を削除することは、「レベル1」実行セット570からルートの「レベル0」実行セット551への遷移の指示である。一部の例において、この遷移は、第2の実行セットの出口点インジケータ565を使用して表される。
最後に、割り当てアルゴリズムは、第5の構成要素566から第2のデータセット568へのリンクを詳しく調べる。第5の構成要素566の出力ポートがコレクション型出力ポートであり、第2のデータセット568の入力ポートがコレクション型入力ポートであるので、第5の構成要素566のID文字列(すなわち、「0」)が第2のデータセット568に伝搬される。
一部の例においては、入口点インジケータ及び出口点インジケータに加えて、データ要素のコレクションのフローと個々のスカラデータ要素との間の変化が、ユーザインターフェース内でさらなる視覚的な手がかりを使用して視覚的に表される可能性がある。例えば、リンクを表す線は、コレクションポートとインジケータとの間でより太く、インジケータとスカラポートとの間でより細い可能性がある。
スタックに基づく割り当てアルゴリズムの結果は、構成要素の各々がID文字列によってラベル付けされるデータ処理グラフ550のバージョンを含む。図5の例において、第1のデータセット556、第2のデータセット568、及び第5の構成要素566は、すべてID文字列「0」によってラベル付けされる。第1の構成要素558及び第4の構成要素564は、ID文字列「0/1」によってラベル付けされる。第2の構成要素560及び第3の構成要素562は、それぞれID文字列「0/1/2」によってラベル付けされる。
それぞれの一意のID文字列は、実行セットの階層内の一意の実行セットを表す。ID文字列「0」を有するそれらの構成要素は、実行の階層内でルートの「レベル0」実行セット551にグループ分けされる。ID文字列「0/1」を有するそれらの構成要素は、ルートの実行セット651内に入れ子にされる「レベル1」実行セット670にグループ分けされる(「0/1」は実行セット0内に入れ子にされた実行セット1と読まれ得る)。ID文字列「0/1/2」を有するそれらの構成要素は、ルートの「レベル0」実行セット551と「レベル1」実行セット570との両方の中に入れ子にされる「レベル2」実行セット572にグループ分けされる。
2.2 グローバルなマッピングに基づく割り当てアルゴリズム
一部の例において、より普通のデータ処理グラフに関して、スタックに基づく割り当てアルゴリズムは、実行セットの階層を正しく決定するのに十分でない可能性がある。例えば、普通のデータ処理グラフにおいては、任意の所与の構成要素が、複数の入力ポート及
び/又は複数の出力ポートを有し、スタックに基づく手法に適合しない普通のデータ処理グラフを実行することができる。そのような例においては、実行セットの階層を決定するためにグローバルなマッピングに基づく割り当てアルゴリズムが使用される。
グローバルなマッピングに基づく割り当てアルゴリズムは、データ処理グラフが有向非巡回グラフに制約されるという事実を利用する。有向非巡回グラフは、トポロジカルソートされた順序を使用して処理され、グラフの各構成要素が構成要素のすぐ上流の構成要素のすべてが処理された後にのみ処理されることを保証することができる。構成要素のすぐ上流の構成要素のすべてが処理されたことが知られているので、構成要素のID文字列は、構成要素からすぐ上流にある(実行セットの階層内の)最も深く入れ子にされた構成要素のID文字列を選択することによって決定され得る。
一部の例において、グローバルなマッピングに基づく割り当てアルゴリズムは、Kahnのアルゴリズムなどの標準的なトポロジカルソートアルゴリズムを使用して所与のデータ処理グラフのトポロジカルソートされた順序を得る。Kahnのアルゴリズムは、以下の擬似コードによってまとめられる。
L ←ソートされた要素を含むことになる空のリスト
S ←入ってくる辺を持たないすべてのノードのセット
while Sが空ではない do
Sからノードnを削除する
nをLの末尾に加える
for each nからmへの辺eを有するノードm do
グラフから辺eを削除する
if mがいかなるその他の入ってくる辺も持たない then
mをSに挿入する
if グラフが辺を有する then
エラーを返す(グラフが少なくとも1つの閉路を有する)
else
L(トポロジカルソートされた順序)を返す
トポロジカルソートされた順序を決定した後、グローバルなマッピングに基づく割り当てアルゴリズムは、構成要素の各々の適切なID文字列(又は単にID番号)を決定するためにデータ処理グラフの構成要素をトポロジカルソートされた順序で詳しく調べる。特に、構成要素が詳しく調べられるとき、データ処理グラフのあらゆる構成要素は、その構成要素のID文字列をその構成要素の出力ポートにコピーする。上流の構成要素からすぐ下流にあり、実行セットの入口点又は実行セットの出口点によって上流の構成要素と分けられていない構成要素は、上流の構成要素の出力ポートからID文字列を読み、ID文字列をそれらの構成要素のID文字列として使用する。
実行セットの入口点によって下流の構成要素と分けられている上流の構成要素に関しては、新しいID文字列が実行セットの入口点において割り振られ、下流の構成要素のID文字列として使用するためにその下流の構成要素に与えられる。下流の構成要素のID文字列への上流の構成要素のID文字列のマッピング(つまり、親/子マッピング)が、後で使用するためにグローバルマッピングデータストアに記憶される。
実行セットの出口点によって下流の構成要素から分けられている上流の構成要素に関しては、上流の構成要素の出力ポートのID文字列が、実行セットの出口点によって読まれる。それから、グローバルマッピングデータストアは、出力ポートにおけるID文字列の親ID文字列を決定するために問い合わされる。親ID文字列は、下流の構成要素のID文字列として使用するためにその下流の構成要素に与えられる。
図6を参照すると、例示的な普通の2次元データ処理グラフ628の一例が、上述のグローバルなマッピングに基づく割り当てアルゴリズムを使用して分析される。データ処理グラフ628は、第1のデータセット(D1)632、第1の構成要素(C1)638、第2の構成要素(C2)640、第3の構成要素(C3)645、第4の構成要素(C4)646、第5の構成要素(C5)642、第6の構成要素(C6)644、及び第2のデータセット(D2)634を含む。データ処理グラフ628の個々の構成要素にID文字列を割り当てる前に、トポロジカルソートアルゴリズム(例えば、Kahnのアルゴリズム)が、データ処理グラフに適用され、トポロジカルソートされた順序D1、C1、C2、C3、C4、C5、C6、D2をもたらす。
トポロジカルソートされた順序が決定された状態で、グローバルなマッピングに基づく割り当てアルゴリズムは、構成要素の各々の適切なID文字列を決定するためにデータ処理グラフの構成要素をトポロジカルソートされた順序で詳しく調べ、(ルートの「レベル0」実行セットの他に)「レベル1」実行セット630及び「レベル2」実行セット631を発見する結果となる。2つの実行セット630、631の発見にたどり着くと、グローバルなマッピングに基づく割り当てアルゴリズムは、まず、最も上流の構成要素、第1のデータセット(D1)632をID文字列「0」によってラベル付けする。それから、スタックに基づく割り当てアルゴリズムは、データ処理グラフ628の構成要素及びリンクをトポロジカルソートされた順序で詳しく調べる。
グローバルなマッピングに基づく割り当てアルゴリズムは、まず、第1のデータセット(D1)632から第1の構成要素(C1)638へのリンクを詳しく調べる。第1のデータセット(D1)632の出力ポートがコレクション型出力ポートであり、第1の構成要素(C1)638の入力ポートがコレクション型入力ポートであるので、実行セットの入口点又は実行セットの出口点は特定されず、第1のデータセット(D1)632のID文字列(すなわち、「0」)が第1のデータセット(D1)632の出力ポートから読まれ、第1の構成要素(C1)638に割り当てられる。
そして、割り当てアルゴリズムは、第1の構成要素(C1)638と第2の構成要素(C2)640との間のリンクを詳しく調べる。第1の構成要素(C1)638の出力ポートがコレクション型出力ポートであり、第2の構成要素(C2)640の入力ポートがスカラ型入力ポートであるので、第1の実行セットの入口点639が、2つの構成要素638、640の間で特定される。第1の実行セットの入口点639において、新しいID文字列(すなわち、「1」)が割り振られ、第2の構成要素(C2)640のID文字列として割り当てられる。第1の実行セットの入口点639の子ID文字列(すなわち、「1」)への第1の実行セットの入口点639の親ID文字列(すなわち、「0」)のマッピング653が、後で使用するためにグローバルマッピングデータストア649に記憶される。
そして、割り当てアルゴリズムは、第2の構成要素(C2)640から第3の構成要素(C3)645へのリンクを詳しく調べる。第2の構成要素(C2)640の出力ポートがコレクション型出力ポートであり、第3の構成要素645の入力ポートがスカラ型入力ポートであるので、第2の実行セットの入口点641が、2つの構成要素640、645の間で特定される。第2の実行セットの入口点641において、新しいID文字列(すなわち、「2」)が割り振られ、第3の構成要素(C3)645のID文字列として割り当てられる。第2の実行セット641の子ID文字列(すなわち、「2」)への第2の実行セットの入口点641の親ID文字列(すなわち、「1」)のマッピング651が、後で使用するためにグローバルマッピングデータストア649に記憶される。
そして、割り当てアルゴリズムは、第3の構成要素(C3)645から第4の構成要素(C4)646へのリンクを詳しく調べる。第3の構成要素(C3)645の出力ポートがコレクション型出力ポートであり、第4の構成要素(C4)646の入力ポートがコレクション型入力ポートであるので、実行セットの入口点又は実行セットの出口点は特定されず、第3の構成要素(C3)645のID文字列(すなわち、「2」)が第3の構成要素(C3)645の出力ポートから読まれ、第4の構成要素(C4)646に割り当てられる。
そして、割り当てアルゴリズムは、第4の構成要素(C4)646から第5の構成要素(C5)642へのリンクを詳しく調べる。第4の構成要素(C4)646の出力ポートがスカラ型出力ポートであり、第5の構成要素(C5)642の入力ポートがコレクション型入力ポートであるので、第1の実行セットの出口点647が、2つの構成要素646、642の間で特定される。第1の実行セットの出口点647において、第4の構成要素(C4)646のID文字列が第4の構成要素(C4)646の出力ポートから読まれ、グローバルマッピングデータストア649に問い合わせるために使用される。グローバルマッピングデータストア649は、第2の実行セットの入口点641に関連して記憶された親子関係651(すなわち、「1/2」)を返す。親/子関係651の親ID文字列(すなわち、「1」)が、第5の構成要素(C5)642のID文字列として割り当てられる。
そして、割り当てアルゴリズムは、第5の構成要素(C5)642から第6の構成要素(C6)644へのリンクを詳しく調べる。第5の構成要素(C5)642の出力ポートがスカラ型出力ポートであり、第6の構成要素(C6)644の入力ポートがコレクション型入力ポートであるので、第2の実行セットの出口点643が、2つの構成要素642、644の間で特定される。第2の実行セットの出口点643において、第5の構成要素(C5)642のID文字列が第5の構成要素(C5)642の出力ポートから読まれ、グローバルマッピングデータストア649に問い合わせるために使用される。グローバルマッピングデータストア649は、第1の実行セットの入口点639に関連して記憶された親子関係653(すなわち、「0/1」)を返す。親/子関係653の親ID文字列(すなわち、「0」)が、第6の構成要素(C6)644のID文字列として割り当てられる。
最後に、割り当てアルゴリズムは、第6の構成要素(C6)644から第2のデータセット(D2)634へのリンクを詳しく調べる。第6の構成要素(C6)644の出力ポートがコレクション型出力ポートであり、第2のデータセット(D2)634の入力ポートがコレクション型入力ポートであるので、実行セットの入口点又は実行セットの出口点は特定されず、第6の構成要素(C6)644のID文字列(すなわち、「0」)が第6の構成要素(C6)644の出力ポートから読まれ、第2のデータセット(D2)634に割り当てられる。
グローバルなマッピングに基づく割り当てアルゴリズムの結果は、構成要素の各々がID文字列によってラベル付けされるデータ処理グラフ628のバージョンを含む。図6の例において、第1のデータセット(D1)632、第1の構成要素(C1)638、第6の構成要素(C6)644、及び第2のデータセット(D2)634は、すべてID文字列「0」によってラベル付けされる。第2の構成要素(C2)640及び第5の構成要素(C5)642は、両方ともID文字列「1」によってラベル付けされる。第3の構成要素(C3)645及び第4の構成要素(C4)646は、両方ともID文字列「2」によってラベル付けされる。
それぞれの一意のID文字列は、実行セットの階層内の一意の実行セットを表す。ID
文字列「0」を有するそれらの構成要素は、実行の階層内でルートの「レベル0」実行セット629にグループ分けされる。ID文字列「1」を有するそれらの構成要素は、ルート実行セット629内に入れ子にされる「レベル1」実行セット630にグループ分けされる。ID文字列「2」を有するそれらの構成要素は、ルートの「レベル0」実行セット629と、さらに「レベル1」実行セット630との中に入れ子にされる「レベル2」実行セット631にグループ分けされる。
2.3 ユーザ定義の実行セット
上述の例においては、(1又は2以上の)割り当てアルゴリズムが、いかなるユーザの介入もなしにデータ処理グラフ内に存在する実行セットを自動的に発見するために使用される。しかし、一部の例においては、ユーザが、(1又は2以上の)割り当てアルゴリズムによって提供される機能以外の機能を必要とする可能性がある。そのような場合、ユーザは、どこで実行セットが始まる及び/又は終わるのかを明示的に定義するために実行セットの入口点及び実行セットの出口点を明示的に追加することができる。図7を参照すると、データ処理グラフ776は、第1のデータセット774、第1の構成要素778、第2の構成要素780、及び第2のデータセット790を含む。上述の(1又は2以上の)割り当てアルゴリズムをデータ処理グラフ776に適用することは、第1の構成要素778及び第2の構成要素780を含む単一の実行セットを発見する結果となる。しかし、この場合、ユーザは、データ処理グラフ776に関して2つの実行セット(すなわち、第1の実行セット782及び第2の実行セット786)を明示的に定義した。特に、ユーザは、第1の構成要素778の出力ポートから出るリンクに実行セットの出口点構成要素784を挿入し、第2の構成要素780の入力ポートに入るリンクに実行セットの入口点788を挿入した。実行セットの出口点784及び実行セットの入口点788を第1の構成要素778と第2の構成要素780との間のリンクに追加することによって、ユーザは、単一の実行セットであったものを2つの別々の実行セット782、786に本質的に分割した。
一部の例において、ユーザは、データ処理グラフに関する実行セットの入口点及び実行セットの出口点のすべてを定義する。その他の例において、ユーザは、実行セットの入口点及び実行セットの出口点の一部を定義し、そして、データ処理グラフに関する残りの実行セットの入口点及び実行セットの出口点を発見することを(1又は2以上の)割り当てアルゴリズムに任せる。
2.4 同じセット関係
一部の例において、ユーザは、所与の構成要素がどの実行セットに属するのかを明示的に指定したい可能性がある。例えば、図8Aを参照すると、データ処理グラフ892は、データ生成構成要素896及びテーブル読み取り構成要素898からデータ要素を受け取る第1の実行セット894を含む。これらの構成要素は、これらの構成要素が提供するデータ要素のコレクションの異なるソースを有することを除いて入力ファイル構成要素と同様である。データ生成構成要素896に関しては、ファイルの場所を規定するスカラ入力ポートの代わりに、生成されるレコードデータ要素の数を規定する(任意の)スカラ入力ポートが存在し、各データ要素がどのようにして生じさせられるべきであるかを規定するパラメータも存在する。テーブル読み取り構成要素898に関しては、ファイルの場所を規定するスカラ入力ポートの代わりに、データベース内のテーブルを規定する(任意の)スカラ入力ポートが存在する。第1の実行セット894は、データ生成構成要素896及びテーブル読み取り構成要素898からのデータ要素を一緒になって処理して、第1のデータセット899に提供される出力を生じさせる第1の構成要素891及び第2の構成要素893を含む。
図8Aにおいて、テーブル読み取り構成要素898は、第1の実行セット894の外部
にあり、つまり、テーブル読み取り構成要素898は、1回実行され、そのテーブル読み取り構成要素898のコレクション型出力ポートからデータ要素のコレクションを出力する。データ要素のコレクションは、第1の実行セット894の境界を横切り、第1の構成要素891のコレクション型入力ポートに与えられる。実行セット894内の構成要素のそれぞれの並列のインスタンスのために、第1の構成要素891のコレクション型入力ポートにおけるデータ要素のコレクションのコピーが生成される。概して、リンクがコレクションポートからであるのか、スカラポートからであるのか、又は制御ポートからであるのかにかかわらず、異なる実行セットに割り当てられる構成要素の間のリンクは、実行セットに流れ込むリンクに関してすべてのインスタンスにデータ又は制御要素をコピーさせ、実行セットから流れ出すリンクに関してすべてのインスタンスからデータ又は制御要素を集めさせる。データ要素は、コレクションへと集められ、制御要素は、ベクトル(vector)へと集められ、そのコレクション又はベクトルは、下流の構成要素の制御論理に応じて(エラーとしてそのコレクション又はベクトルにフラグを立てる可能性も含め)適切に扱われ得る。
図8Bを参照すると、一部の例においては、ユーザが、実行セット894内の構成要素のそれぞれの並列のインスタンスのためにテーブル読み取り構成要素898が実行されることを必要とする可能性がある。この機能を実現するために、ユーザは、テーブル読み取り構成要素898と第1の構成要素891との間に「同じセット」関係を規定することができる。ユーザが「同じセット」関係を規定した結果として、テーブル読み取り構成要素898は、第1の構成要素891と同じ実行セット(すなわち、第1の実行セット894)の中に移される。テーブル読み取り構成要素898が第1の実行セット894に含まれるので、第1の実行セット894内の構成要素のそれぞれの並列のインスタンスが、テーブル読み取り構成要素898のインスタンスを実行する。
一部の例において、ユーザは、(例えば、下でより詳細に説明されるユーザインターフェースによって)移動元実行セット(source execution set)に関連するメニューから移動先実行セット(destination execution set)を選択することによって、又は移動元実
行セットから移動先実行セットに構成要素をドラッグすることによって「同じセット」関係を規定することができる。一部の例においては、ドラッグされた構成要素が移動先実行セット内に規則を守って置かれ得ることを検証するためのエラー検査が実行される。例えば、互いに「同じセット」関係を有することになるすべての2つの構成要素に強制され得る1つのあり得る要件は、それらの構成要素の両方を含むデータ処理グラフを通り抜ける少なくとも1つの経路が存在しなければならないことである。
2.5 コレクションデータの複製
一部の例においては、実行セット内の複数の構成要素が、それぞれ、実行セットの入口点を介して上流の構成要素の単一のコレクション出力ポートに接続されたスカラ入力ポートを有する可能性がある。同様に、実行セット内の複数の構成要素が、それぞれ、実行セットの下流の構成要素の単一のコレクション入力ポートに接続されたスカラ出力ポートを有する可能性がある。
一部の例において、コレクション型出力ポートから複数の構成要素のスカラ入力ポートに同じデータを提供するために、実行セットの入口点は、スカラ入力ポートの各々のためにコレクションからの各データ要素の(1又は2以上の)複製を作り、(1又は2以上の)複製をそれらの対応するスカラ入力ポートに提供する。同様に、(実行セットの異なるそれぞれの繰り返しからの)複数の構成要素のスカラ出力ポートによって出力されたデータを合併するために、実行セットの出口点は、スカラ出力ポートから出力データ要素を受け取り、出力データ要素を合併し、それから、合併された出力データ要素を下流の構成要素のコレクション入力ポートに提供することができる。概して、下流の構成要素のコレク
ション入力ポートは、合併されたデータ要素を扱うように構成される。
図9を参照すると、データ処理グラフ923が、第1のデータセット924、第2のデータセット926、及び実行セット928を含む。実行セット928は、2つの構成要素、すなわち、第1の構成要素930及び第2の構成要素932を含む。第1のデータセット924は、実行セット928の実行セットの入口点936に接続され、実行セット928の実行セットの入口点936にデータ要素のコレクションを提供するコレクション出力ポート934を有する。第2のデータセット926は、実行セット928の実行セットの出口点940に接続され、実行セット928の実行セットの出口点940からデータ要素のコレクションを受け取るコレクション入力ポート938を有する。
実行セット928内で、第1の構成要素930は、第1のスカラ入力ポート942を有し、第2の構成要素932は、第2のスカラ入力ポート944を有する。第1のスカラ入力ポート942と第2のスカラ入力ポート944との両方は、実行セットの入口点936に接続され、実行セットの入口点936から個々のデータ要素を受け取る。上述のように、実行セットの入口点936は、実行セットの入口点936に接続された各スカラ入力ポートにデータ要素のコレクションの各データ要素のコピーを提供するために、コレクション出力ポート934から受け取られたデータ要素を複製する。図9において、実行セットの入口点936は、各データ要素の2つの複製を作り、複製のうちの一方を第1のスカラ入力ポート942に提供し、他方の複製を第2のスカラ入力ポート944に提供する。図から明らかなように、一部の例においては、グラフィカルユーザインターフェースにおける実行セットの入口点936の視覚的表現が、データ要素のいくつの複製が実行セットの入口点936によって作られるかを表現する。また、その他の例においては、複製の異なるコピーを表す異なる入口点インジケータが、実行セットにデータ要素を与えるコレクション出力ポートから提供されるそれぞれの複製されたデータ要素のコピーを必要とする実行セット内にあるのと同じ数の構成要素へと実行セットの境界付近で分けられ、分配される可能性がある。
第1の構成要素930及び第2の構成要素932は、それらの構成要素のそれぞれのデータ要素を処理し、それらの構成要素のそれぞれの処理されたデータ要素を、スカラ出力ポート946、948を介して実行セットの出口点940に提供する。一部の例において、実行セットの出口点940は、処理されたデータ要素を対にグループ化し、処理されたデータ要素の対を第2のデータセット926のコレクション入力ポート938に出力する。図から明らかなように、一部の例においては、グラフィカルユーザインターフェースにおける実行セットの出口点940の視覚的表現が、データ要素のいくつの複製が実行セットの入口点936によってグループ化されるかを表現する。
2.6 リソースのラッチ
一部の例において、所与の実行セット内の構成要素は、並列のインスタンスにおいて複数回実行される可能性がある。一部の例において、並列のインスタンスを実行する構成要素は、共有リソースにアクセスする必要がある可能性がある。競合状態、及び複数のプロセスが共有リソースにアクセスすることに関連するその他の問題を防止するために、ラッチメカニズムが使用され得る。概して、ラッチメカニズムは、実行セット内の構成要素の1つのインスタンスが実行を終えるのにかかる時間の間、そのインスタンスが共有リソースに対するランタイムロックを取得することを可能にする。インスタンスがラッチされた共有リソースを有する間、インスタンスの構成要素のみが共有リソースにアクセスすることができ、その他のインスタンスの構成要素はラッチが解放されるのを待たなければならない。インスタンスは、完了した後、ランタイムロックを解放し、その他のインスタンスが共有リソースにアクセスすることを可能にする。ラッチメカニズムは、(例えば、上流の端の明示的なラッチ構成要素及び下流の端の明示的なラッチ解除構成要素を使用して)
単一の実行セット内で共有リソースに対してラッチとラッチ解除との両方を行わなければならない。一部の実施形態において、そのような「ラッチされた実行セット」は、入れ子にされ得ず、互いに重なることもできない。
2.7 その他
グローバルなマッピングに基づく割り当てアルゴリズムが2次元データ処理グラフに関連して説明されているが、グローバルなマッピングに基づく割り当てアルゴリズムは1次元データ処理グラフに関する実行セットを発見するために使用される可能性もあることが留意される。
概して、実行セットは、任意に入れ子にされ得る。
概して、実行セットは、リンクされた出力コレクションポートから実行セットのそれぞれのインスタンスのために受け取られた最大で1つの駆動データ要素を有する。しかし、その同じデータ要素が実行セットの境界をまたがって明示的な又は暗黙的に複製される場合、複数のスカラ入力ポートが、その同じデータ要素を受け取る可能性がある。
概して、実行セットの境界をまたがるリンクを有するすべての出力スカラポートは、実行セットの複数のインスタンスの各々からのすべてのデータ要素を、リンクされた入力コレクションポートに提供される同じコレクションへと集めさせる。しかし、実行セットが単一のインスタンスを有する場合、実行セットの境界をまたがるリンクを有する出力スカラポートは、入力スカラポートにリンクされる可能性がある。
概して、実行セットを横切ることがデータ処理グラフ内のいかなる閉路も生じないと仮定して、同じ種類の2つのポートの間のリンクは、実行セットの境界を横切ることができる。
一部の例において、各実行セットは、デフォルトで一意の識別子(例えば、「1」)を割り当てられる。その他の例において、各実行セットは、実行セットIDパス(例えば、「1/3/6」)を割り当てられる可能性がある。一部の例において、ユーザが、実行セットID文字列を明示的に供給する。実行セットID文字列は、一意であるとは限らない。実行セットID文字列が一意でない場合、実行セットID文字列は、その親、親の親などの実行セットID文字列と組み合わされ、一意のID文字列をもたらすことができる。
一部の例において、グローバルなマッピングに基づく割り当てアルゴリズムは、構成要素が最も深く入れ子にされた実行セットに対応するID文字列を割り当てられる結果となる。一部の例において、実行セットが実行セットIDパスを割り当てられるとき、実行セットIDパスは必ずしも一意でない。実行セットIDパスが一意でない状況を補償するために、所与の実行セットの上流の実行セットIDパスが必ず「適合性がある(compatible)」必要があることを要求する制約が実行セットIDパスに課され、ここで、2つの実行セットIDパスは、それらの実行セットIDパスが同じであるか、又は一方が他方の適切な接頭辞(prefix)である場合かつその場合に限り適合性がある。例えば、
・/1/2/3及び/1/2/3は適合性がある
・/1/2/3及び/1/2は適合性がある
・/1/2及び/1/2/3は適合性がある
・/1/2/3及び/1は適合性がある
・/1/2/3及び/1/4は適合性がない
・/1/2/3及び/1/4/5は適合性がない
上述の実施形態は、基本的に、スカラブロックのインスタンスの実行に順序付け/同時
発生の制約を課さない。しかし、一部の実施形態においては、実行セットにデータ要素を与えるコレクションから受け取られるデータ要素のサブセットの容認される同時性及び必要とされるシリアル化(serialization)を制御するためのその他の入力が与えられる。
一部の実施形態においては、部分的な順序付けによる逐次処理が、データ要素の一部のサブセットに課される可能性がある。
デフォルトで、実行セットのインスタンスは、完全に並列に実行される可能性がある。しかし、場合によっては、ユーザが、異なる振る舞いを望む可能性がある。例えば、処理されているデータがアカウントレベル(account-level)のデータである場合、ユーザは
、各アカウント(account)内でのデータの処理に特定の制限を強制したい可能性がある
。例えば、ユーザは、直列実行を強制したい可能性がある。そのような場合、アカウントにまたがって任意の度合いの並列処理が可能にされ得るが、同じアカウントに関する2つのデータ要素が同じ時に(つまり、同時に)処理されてはならない。さらなる制限は、同じアカウントに関する2つのデータ要素が、例えば、キーによって又は受け取られた順序によって定義される順序に従う順序から外れて処理されてはならないような順序通りの処理であってもよい可能性がある。
これを実現するために、シリアル化キーが、実行セットのために提供される可能性がある。シリアル化キーの同じ値を有するすべてのデータ要素は、逐次的に、場合によっては明確に定義された順序で処理されなければならない。ランタイムシステムが同じシリアル化キーを有するデータ要素に関して直列実行を強制する1つの方法は、シリアル化キーによって実行セットのインスタンスを区分けすること、つまり、駆動データ要素が特定のシリアル化キー(又はシリアル化キーのハッシュ値)を有するインスタンスを特定のコンピューティングノード152上で実行されるように割り当てることである。ランタイムで、システムは、実行可能なタスクのキューが一杯のままであることを保証するためにデータ要素のコレクションをスキャンすることによって作業がコンピューティングノード152中に均等に分散されることを保証することができる。(コレクション内などに)明示的に定義された順序が存在するとは限らない場合、順序は、それらが出力ポート(さらにはコレクション出力ポート)から生成されたのと同じ順序、又はシリアル化キーのグループ内で処理の順序を律する異なる照合キー(collation key)に関連する順序である可能性が
ある。場合によっては、実行セットは、予め定義された値をシリアル化キーとして与えることによって完全に逐次的に実行されるように強制される可能性がある。
一部の実施形態においては、たとえ処理が厳密に順序に従って実行されなかったとしても、その順序が維持されたという見かけが保たれる可能性がある。実行セットの入力と出力との両方のデータが特定の順序(例えば、ベクトル内の要素の順序)に関連付けられる場合、ユーザは、その順序を維持したい可能性がある。たとえデータ要素の処理の際にシリアル化をしないとしても、出力データ要素は、例えば、データ要素が処理されるときにデータ要素と一緒に運ばれた順序付けキーを使用して入力データ要素の対応するセットに関連する順序付けを復元するためにソートされる可能性がある。代替的に、並列に生成された出力データ要素が、明示的なソート動作が実行されることを必ずしも必要とせずに、それらのデータ要素が実行セットに入ったのと同じ順序で合併される可能性がある。
実行セットのために準備されたコードを実行することに関連するさまざまな計算の特徴が、ユーザ入力を用いて又はユーザ入力を用いずにコンパイラ/インタープリタ120によって構成され得る。例えば、特定の実行セット内の構成要素に対応するタスクがどのようにして実行されるべきかを示すための上述の埋め込まれた情報が、以下のうちのいずれかを含む可能性がある。情報は、タスクが完全に逐次的に実行されるべきである(つまり、並列処理なし)を示すコンパイラのアノテーションを含む可能性がある。情報は、順序付けの制約によって許容されるだけの並列処理によってタスクが処理されるべきであるこ
とを示すコンパイラのアノテーションを含む可能性がある。情報は、同じキー値に関連するタスクが逐次的に実行され、異なるキー値に関連するタスクが並列に実行されること(つまり、上述のキーによるシリアル化)を示すコンパイラのアノテーションを含む可能性がある。
コンパイラのアノテーション又は修飾子は、以下のさまざまな計算の特徴のいずれかを示すために使用され得る。
・同時性(例えば、上述の並列、直列、キーによる直列)
・異なる実行セットの間の優先度(例えば、ある実行セットのすべてのタスクが別の実行セットのすべてのタスクの後に行われる)
・トランザクショナリティ(transactionality)(例えば、実行セットのタスクがデータベーストランザクションとして処理される)
・リソースのラッチ(例えば、実行セットのタスクが、共有変数などの特定のリソースがロックされるようにして実行され、タスクがアトミックな単位としてリソースにアクセスすることを可能にする)
・順序付け(例えば、データ要素の間の順序付けが維持される)
・タプルのサイズ(例えば、実行セットの各インスタンスによって操作されるデータ要素の数)
コンパイラ/インタープリタ120は、実行セットの、若しくはデータ処理グラフ全体の特性を自動的に分析することに基づいて、及び/又はユーザから入力(例えば、グラフ内のユーザのアノテーション)を受け取ることに基づいて特徴を決定し得る。例えば、キー値が実行セット内で参照される場合、コンパイラのアノテーションが、キーによるシリアル化を示す可能性がある。リソースが実行セット内で使用される場合、コンパイラの修飾子が、実行セットの前/後にそのリソースをロックする/ロック解除することを可能にし得る。実行セット内にデータベース操作がある場合、実行セットの各インスタンスは、データベーストランザクションとして実行されるように構成される可能性がある。利用可能なコアの数がコンパイル時に決定され得る場合、コンパイラのアノテーションが、各コアが、コレクションの合計サイズをコアの数で割った数に等しい数のデータアイテムからなるデータアイテムのタプルに対して実行セットのインスタンスを実行することを示す可能性がある。
コンパイラのアノテーション及び修飾子は、好適な比較的高級な言語(例えば、DML)、若しくは低級な実行可能コードなどの目標言語で、又はデータ処理グラフの目標中間形態で準備されるコードに追加される可能性がある。例えば、コンパイラ/インタープリタ120は、実行セットの入口点若しくは出口点を明示的に示す構成要素をデータ処理グラフに挿入する可能性があり、又はトランザクションを開始する/終了するための構成要素が、トランザクションを処理するための構成要素のセットの入口点/出口点に置かれる可能性があり、又は構成要素が、リソースをロックする/ロック解除するために使用される可能性がある。代替的に、コンパイラ/インタープリタ120は、修正された種類のデータフローリンクとして修飾子を追加する可能性がある。
3 データ処理グラフのためのユーザインターフェース
一部の例においては、ユーザインターフェースが、構成要素をキャンバスにドラッグし、構成要素のポートをリンクを使用して一緒に接続することによってユーザがデータ処理グラフを作成することを可能にする。一部の例において、ユーザインターフェースは、ユーザがデータ処理グラフを作成するときに上述の(1又は2以上の)割り当てアルゴリズムをデータ処理グラフに繰り返し適用する。例えば、ユーザが作成されているデータ処理グラフに構成要素を追加するとき、(1又は2以上の)割り当てアルゴリズムが、追加された構成要素を有するグラフに適用され得る。そして、(1又は2以上の)割り当てアル
ゴリズムによって発見された結果として得られる実行セットが、例えば、ユーザインターフェース内で構成要素の周りに描かれたボックスとして、又は同じ実行セット内の構成要素を含む領域を与えるために使用される一意の色、濃淡、テクスチャ、又はラベルによって区別され得る構成要素を取り囲む任意の形状の領域として表示される可能性がある。一部の例において、それから、ユーザは、実行セットに構成要素を追加するか又は実行セットから構成要素を削除することによって、(1又は2以上の)割り当てアルゴリズムによって発見された実行セットを修正することができる。一部の例において、(1又は2以上の)割り当てアルゴリズムは、修正された実行セットが規則に則していることを検証する。例えば、さまざまな規則に則した方法のいずれかで潜在的に実行セットに分割される可能性がある構成要素及びさまざまなポートの間のリンクのいくつかの構成が存在し得る。そのような曖昧な場合、割り当てアルゴリズムは、デフォルトで実行セットのうちの1つの割り当てを選択する可能性があるが、ユーザは、実行セットの異なる割り当てを意図していた可能性があり、その場合、ユーザは、(例えば、終了点を挿入して前は構成要素の連鎖の中にあった実行セットを閉じることによって)割り当てを修正することができる。代替的に、割り当てアルゴリズムは、複数の規則に則した割り当てが可能である曖昧な構成を認識し、1つを選択するための入力を与えるようにユーザに促すように構成される可能性がある。
図10Aを参照すると、ユーザは、3つの構成要素、第1のデータセット1022、第1の計算構成要素1024、及び第2のデータセット1026をデータ処理グラフ作成ユーザインターフェースのキャンバス1028にドラッグした。ユーザは、構成要素1022、1024、1026をリンクを使用してまだ一緒に接続しておらず、(1又は2以上の)割り当てアルゴリズムは、(ルート実行セット以外の)データ処理グラフ内のいかなる実行セットも発見していない。
図10Bを参照すると、ユーザが構成要素1022、1024、1026のポートをリンクによって一緒に接続するとき、(1又は2以上の)割り当てアルゴリズムは、第1の実行セット1030を自動的に発見し、第1の実行セット1030は、第1の計算構成要素1024を含む。第1の実行セット1030は、ユーザインターフェースを通じてユーザに対して表示される。ユーザが構成要素及びリンクをグラフに追加し続けるとき、(1又は2以上の)割り当てアルゴリズムは、実行セットを自動的に発見し、ユーザインターフェースを通じて表示する。
図10Cを参照すると、一部の例において、ユーザは、(例えば、リンクに別の構成要素を挿入するために)リンクを切る必要がある可能性がある。そのような例において、(1又は2以上の)割り当てアルゴリズムがデータ処理グラフを再分析することを可能にされていたとすれば、第1の実行セット1030が削除され、おそらくは、ユーザの作業の混乱及び損失を生じるであろう。
そのような混乱を避けるために、ユーザがデータ処理グラフからフロー又は構成要素を削除するとき、(1又は2以上の)割り当てアルゴリズムは実行されない可能性があり、その代わりに、残りの構成要素及びそれらの構成要素の実行セットの関連付けが手をつけられないまま残される。例えば、図10Cにおいては、第1の構成要素1024が、その構成要素の入力ポート及び出力ポートが切断された状態で、まだ第1の実行セット1030に含まれている。一部の例においては、切断された構成要素が再接続されるとき、(1又は2以上の)割り当てアルゴリズムは、再接続される構成要素に関連するすべての実行セットを自動的に発見し、表示することを可能にされる。
一部の例において、データ処理グラフの構成要素が明示的な(例えば、ユーザ定義の)実行セットの移動先を持たない場合、(1又は2以上の)割り当てアルゴリズムは、構成
要素がどの実行セットに属するのかを発見することを可能にされる。そうではなく、構成要素が明示的なユーザ定義の実行セットの移動先を有する場合、(1又は2以上の)割り当てアルゴリズムは、構成要素がどの実行セットに含まれるかを選択することを可能にされない。例えば、ユーザが構成要素を所与の実行セットに手動で移動させる場合、(1又は2以上の)割り当てアルゴリズムは、構成要素をユーザ指定の実行セット以外のいかなる実行セットに含めることも可能にされない。つまり、データ処理グラフに対するいかなるユーザの修正も、(1又は2以上の)割り当てアルゴリズムによって覆され得ない。
一部の例において、ユーザインターフェースは、ユーザが入力デバイスとのジェスチャ又はその他のインタラクションを使用して所与の実行セットに構成要素を昇格させる及び/又は所与の実行セットから構成要素を降格させることを可能にする。一部の例において、ユーザは、メニューオプション又はその他のアフォーダンス(affordance)を使用して構成要素を昇格又は降格させることができる。その他の例において、ユーザは、単純に、ユーザインターフェース内で所望の実行セットに構成要素をドラッグすることができる。
一部の例において、ユーザインターフェースは、ユーザがデータ処理グラフ内の実行セットに関する1又は2以上の制約を規定することを可能にする。例えば、ユーザは、一時に並列にN回以下しか実行されないように実行を制約する可能性がある。
一部の例において、コンパイラ/インタープリタ120は、手動で定義された実行セットと割り当てアルゴリズムによって発見された実行セットとの混合を含むデータ処理グラフの表現を受け取る。
一部の例において、ユーザは、インターフェースを使用して有効化/抑制実行セット(enable/suppress execution set)と呼ばれる別の種類の実行セットを定義することがで
きる。例えば、ユーザは、有効化/抑制実行セットに含まれることをそれらのユーザが望む1又は2以上の構成要素の周りにボックスを描くことができる。有効化/抑制実行セットは、1又は2以上の構成要素を含み、スカラ入力ポートを有する。上流の構成要素のスカラ出力ポートが有効化/抑制実行セットのスカラ入力ポートに1つのデータ要素を与える場合、有効化/抑制実行セット内の構成要素は、実行されることを可能にされる。上流の構成要素のスカラ出力ポートが有効化/抑制実行セットのスカラ入力ポートにデータ要素を与えない場合、有効化/抑制実行セットに含まれる構成要素は、抑制される。(有効化/抑制実行セットを含む)すべての実行セットは、実行セット全体が実行されるか否かを決定し、制御信号をその他の構成要素又は実行セットに伝搬させるために使用され得る制御入力ポート及び制御出力ポートを含み得る。実行セットが並列化される(つまり、複数のインスタンスを有する)場合、入力制御ポートが、いかなるインスタンスが実行されるよりも前に作動されなければならず、出力制御ポートは、すべてのインスタンスが実行を完了した後に作動される。一部の例において、これらの入力制御ポート及び出力制御ポートは、実行セットの境界にポートの視覚的表現を置くことによって設けられる。その他の例において、これらの入力制御ポート及び出力制御ポートは、実行セットの前のさらなる構成要素にこれらの入力制御ポート及び出力制御ポートを置くことによって設けられる。例えば、このさらなる「forall構成要素」は、上流のコレクション出力データポートと入口点インジケータとの間に、又は入口点インジケータの代わりに(つまり、上流のコレクション出力データポートと駆動入力スカラデータポートとの間に)(例えば、ユーザインターフェースによって自動的に又はユーザによって手動で)挿入される可能性がある。
図7に関連して上で触れられたように、一部の例において、ユーザは、データ処理グラフのフローに沿って実行セットの入口点構成要素及び実行セットの出口点構成要素を置くことによって実行セットの入口点及び実行セットの出口点を明示的に定義することができる。
一部の例において、ユーザインターフェースは、ユーザのグラフが規則に違反した動作を含むときにそれらのユーザに知らせるためのリアルタイムフィードバックを提供する。例えば、構成要素がユーザ指定の実行セット内にあることによって引き起こされる衝突がある場合、(1又は2以上の)割り当てアルゴリズムは、ユーザインターフェースを通じてユーザに警告を与える可能性がある。リアルタイムフィードバックを提供するために、(1又は2以上の)割り当てアルゴリズムは、データ処理グラフが規則に則しているかどうかをユーザに知らせるためにデータ処理グラフに確認規則を適用する。図11Aを参照すると、規則に違反するデータ処理グラフの構成1195の一例が、2つのデータソース、第1の実行セット1197内の第1の構成要素1102のスカラポートにデータ要素の第1のコレクションを供給する第1のデータソース1191と、第2の実行セット1199内の第2の構成要素1104のスカラポートにデータ要素の第2のコレクションを供給する第2のデータソース1198とを含む。第2の実行セット1199は、データ要素の第3のコレクションを出力し、そのとき、データ要素の第3のコレクションは、第1の実行セット1197内の第3の構成要素1106のスカラデータポートに入力される。データ要素の2つの異なるコレクションが第1の実行セット1197内の異なるスカラポートに接続されているので、(第1の実行セット1197の境界に存在するそれぞれのデータ要素のために構成要素の1つのインスタンスが生成されるので)第1の実行セット1197内の構成要素のいくつの並列のインスタンスがインスタンス化されるべきかを知る方法はない。一部の例において、ユーザは、例えば、第2の構成要素1104上にエラーインジケータ1108を表示することによってこの衝突を通知される。
図11Bを参照すると、規則に違反するデータ処理の構成1110の別の例が、第1の実行セット1116内の第1の構成要素1114のスカラ入力ポートにデータ要素のコレクションを供給するデータソース1112を含む。第1の構成要素1114のスカラ出力は、その第1の構成要素1114の出力を、第1の実行セット1116の外の第2の構成要素1118のコレクションポートにデータのコレクションとして提供する。第2の構成要素1118は、コレクション型出力ポートから第1の実行セット1116内の第3の構成要素1120のスカラデータポートにデータ要素のコレクションを提供する。
第1の実行セット1116の外へ第1の構成要素1114のコレクション型出力ポートからデータ要素のコレクションを渡し、第2の構成要素1118においてデータ要素のコレクションを処理し、それから、データ要素の処理されたコレクションを第3の構成要素1120のスカラポートに返すことによって、「実行セットループ」が定義される。
概して、実行セットループは、実行の順序付けに悪影響を与えるので規則に違反している。例えば、入力に関して、入力データが実行セットを実行する前にバッファリングされる可能性があり、出力に関して、実行セットが実行を完了した後に出力データが集められる可能性があるので、概して、実行セットに入る又は実行セットから出るさらなるフローを持つことが容認される。しかし、これは、外部構成要素が実行セットの前と後との両方で実行されることを必要とされる場合、不可能である。
一部の例において、ユーザは、構成要素のうちの1又は2以上の上にエラーインジケータ1108を表示することによって実行セットループを通知される。
一部の例において、データ処理グラフは、それぞれの実行セットの入口点が少なくとも1つの対応する実行セットの出口点と組み合わされない場合、規則に違反すると考えられる。代替的に、入口点を有するが、対応する出口点を持たない実行セットが、例えば割り当てアルゴリズムによって自動的に認識されないとしてもユーザ定義の実行セットとして許容される可能性がある。それらの場合、実行セットは、(1又は2以上の)最も下流の
構成要素が実行を終えた後に(いかなる出力データ要素も与えずに)終わる可能性がある。一部の例において、データ処理グラフは、各ラッチ操作が対応するラッチ解除操作と組み合わされない場合、規則に違反すると考えられる。代替的に、ラッチ解除動作は、何も明示的に規定されない場合、推測され、推測されたラッチ解除操作がラッチ操作とは異なる実行セット内になければならない場合、ただ規則に違反するものとして示される可能性がある。一部の例において、データ処理グラフは、ラッチ操作及び対応するラッチ解除操作がどちらかでも同じ実行セット内に存在しない場合、規則に違反すると考えられる。
4 入れ子にされた実行セットの視覚的表示
上で紹介されたように、少なくとも一部の実施形態において、割り当てアルゴリズムの実行によって発見される実行セットは、例えば、視覚的表示内で構成要素を包含する形作られた領域を使用してユーザに対して視覚的に表示される。セットの視覚的表現は、概して、計算の視覚的表現内の各セットの空間的範囲の外形又はその他の指示を含む。概して、(例えば、ユーザインターフェース上の)特定の視覚的表現は、複数のセットを含む可能性があり、セットは、別の互いに入れ子にされる可能性がある。外形又は空間的範囲の性質は、構成要素がそれらの構成要素の対応するセットのメンバーであることをよりはっきりさせるか又はより分かりにくくすることによって視覚的表現の有用性に影響を与える可能性があることが分かった。計算の構文的及び/又は意味的解釈は実行セットへの構成要素の割り当てに依存するので、メンバーであることのはっきりした視覚的表現は、ユーザに対して計算の解釈のはっきりした表現をやはり与える。解釈を視覚的にはっきりと示すことによって、ユーザは、プログラムの仕様を使用する対応する意図しないランタイムの計算を生じる計算の意図しない解釈をより容易に検出することができる。
図15を参照すると、図1を参照して上で紹介された手法の一実施形態において、ユーザ1502が、コンパイラ/インタープリタ1520のグラフィカルユーザインターフェース1522を介してグラフに基づくプログラムの仕様1510を与える。このプログラムの仕様は、プログラムの構成要素の識別情報を含む。ユーザは、それぞれの構成要素自体が視覚的表現を有するようにしてプログラム全体の視覚的表現とインタラクションする。例えば、プログラム全体は、2次元フレーム上に視覚的に表現し、それぞれの構成要素の視覚的表現は、そのフレーム内の位置並びにそのフレーム内の形状及び/又は空間的範囲を有する。入力処理1528の一部として、構成要素及び/又は相互接続を特徴付けるプログラムの仕様の情報が、プログラムの仕様の実行セット1526を特定するために使用される。これらの実行セット1526は、ランタイム仕様1530を生成するためにコンパイル1532に渡される。ランタイム仕様は、仕様に従ってデータを処理するために後で使用され、実行セットの実行を調整する実行セット制御要素1552を含む可能性がある。代替的に、実行セットの制御は、明示的な実行セット制御要素なしにランタイム仕様1530に埋め込まれる。
ランタイム仕様1530を決定するために使用される同じ実行セット1526が、グラフィカルユーザインターフェース1522の出力処理要素1524に渡される。この出力処理は、ユーザ1502に提示するためにプログラムの仕様の視覚的表現1560を形成する。この視覚的表現は、実行セットの視覚的表現を含む、概して、実行セットに関連する空間的範囲及び/又は空間的範囲の外形の表現を含む。
上で紹介された計算システムの文脈で説明されるが、相互に接続された構成要素の潜在的に入れ子にされたセットの視覚的表現を提供する手法は、特に、セットへの構成要素の割り当てがグラフに基づく仕様の構文的及び/又は意味的解釈(例えば、「解析」)に基づくその他のシステムに適用可能であることを理解されたい。概して、各構成要素は、それ自体が空間的範囲を有する視覚的表現を有する。上で紹介されたシステムにおいて、構成要素の一部又はすべてはユーザインターフェース内で長方形の空間的範囲を有するが、
その他の形状が使用され得る(例えば、円、楕円、ディスクの表現などのアイコンなど)。下の検討において、用語「セット」及び「グループ」は、概して、交換可能なように使用され、「構成要素」及び「ブロック」は、概して、交換可能なように使用される−したがって、処理は、ブロックの入れ子にされたグループに関連する空間的範囲を形成するものとして表現され得る。また、各セットは、ラベルが部分的に順序付けられるようなラベルに関連付けられ、部分的な順序付けは、セットの入れ子を表す。上で紹介されたように、ラベルは、「/a/b/c」の形態(つまり、この場合、「/」によって開始され/ルートが示され、分けられる記号のシーケンス)をとり得、第1のラベルは、その第1のラベルが第2のラベルの接頭辞を形成する場合、第2のラベルを包含する(すなわち、第2のラベルよりも大きい)。したがって、ラベル「/a/b」を有するセットは、ラベル「/a/b/c」を有するセットを包含し、ラベル「/a/d」を有するセットとはバラバラである(つまり、ラベル「/a/d」を有するセットに対して順序付けられない)。
出力処理1524は、プログラムの仕様1510内のユーザによって与えられた構成要素の位置及び空間的特徴と、特定された実行セット1526とを使用して、セットの視覚的表現を形成する。図16を参照すると、プログラムの仕様の構成要素1621〜1623の単純な例が、フレーム1610上のそれらの構成要素の視覚的表現で示される。この例において、すべての構成要素は、「/0」とラベル付けされた完全なセットに属し、構成要素1622及び1623は、「/0/2」とラベル付けされた入れ子にされたセットに属す。ラベル「/0/2」に関連する空間的範囲1630は、この例においては色を濃くされており、領域の外形1631は、視覚的表現で提示される。この単純な例においてさえ、構成要素の位置付けが原因で、「/0/2」のセットは、セット内にない構成要素1621をやはり除外する長方形領域内に包含され得ないことに留意されたい。したがって、概して、空間領域の長方形でない外形が必要であることは明らかであるに違いない。
この実施形態において、空間領域を形成するための出力プロセスは、以下を含むいくつかの要件を有する。
・外形が、対応するグループ内にないブロックを包含してはならない。
・外形は、例えば、最短距離でブロックから及び互いに分けられなければならない。
この実施形態において、空間領域を形成するための出力プロセスは、以下を含むいくつかの目的を有する。
・ブロック、及びどのブロックがどのその他のブロックの中に入れ子にされるかが、ユーザの自然な知覚的形状認識を用いて直ちに明らかになり、直ちに認識可能でなければならない。
・ユーザが、ブロックのラベル付け又は相互接続だけからグループ分けを推測する必要があるべきでない。
・外形の尖った角及び/又はたくさんの細々したことがグループ分けを容易に認識するユーザの能力を低下させるとの前提の下で、外形が滑らかに湾曲させられるべきである。
・外形の内部の多くの本質的でない空間が外形が提供している情報を損ない、曖昧にするとの前提の下で、外形がそのような余分な空間を持つべきでない。
これらの設計の目的に対処する実装形態において、グループに関する外形及び空間領域を決定するプロセスは、以下のステップを利用する。
1.プログラムの仕様の重なり合わないブロックの位置(及び必要に応じて形状)並びにグループラベルを受け入れる。
2.適正にブロックを包含し、外形を分ける要件を適正に満たす領域の初期外形を計算する。
3.目的に応じて外形を改善する。
下でより詳細に説明されるように、実施形態において、初期外形を計算するステップ(
2.)は、以下のいくつかのステップで実行される。
a.フレームをモザイク状にする。
b.モザイク式の配列のタイルの辺の外形の切片(intercept)を特定する。
c.切片を接続して初期外形を形成する。
下でより詳細に説明されるように、実施形態において、外形を改善するステップ(3.)は、以下の2つのステップで実行される。
a.切片を反復的に調整する。
b.外形の「角」を丸める。
ステップ2a〜c及び3aが、図16に示された例に関して図17A〜Cに示される。図17Aを参照すると、第1のステップは、プログラムの仕様の視覚的表現のフレーム上で点1710、1711、及び1712(代表的な点のみが図中でラベル付けされている)のセットを特定することである。点1710は、ブロックの視覚的表現の頂点にある。各ブロックが長方形として表されるこの例においては、4つの点1710が、各ブロックの長方形の角にある。点1711は、フレームの辺において、その辺に最も近い点1710の水平射影及び垂直射影の位置にある。点1712は、フレームの角にある。
ステップ(2a.)について続けると、点1710〜1712が、三角形のメッシュのセットを形成するために辺1720(辺1720のうちの代表的な辺だけがラベル付けされている)によってリンクされる。この実施形態においては、参照により本明細書に組み込まれているFortune, S., “A Sweepline Algorithm for Voronoi Diagrams,” Algorithmica, 2:153-174, 1987に説明されているように点上でDelaunayの三角形メッシュを形成するための辺を選択するために、Fortuneの手順が使用される。しかし、三角形メッシュ
を形成するその他の手法が同様の全体的な効果を持って使用され得ることを理解されたい。
三角形メッシュの各辺1720は、2つの端点1710〜1712を有する。各端点は、ラベルに関連付けられる。ブロックの頂点にある点1710が、ブロックのラベルに関連付けられる。フレームの辺上にある点1711及び1712が、ルートラベル、この例においては「/0」に関連付けられる。辺の端点に関連する異なるラベルを有する各辺は、外形に関する1又は2以上の中断点(intercept point)1730を有する。
辺1720上の中断点1730の数及び位置並びに辺に沿った中断点の位置は、端点のラベルに依存する。ラベルのパターンが「/a」及び「/a/b」である場合、ラベル「/a/b」に関連する空間領域の外形に関連付けられる単一の中断点1730が存在する。この場合、中断点は、辺1720の中間に置かれる。同様に、ラベルのパターンが「/a/b」及び「/a/b/c」である場合、やはり、辺上に単一の(つまり、「/a/b/c」の領域の外形に関連付けられる)中断点のみが存在する。
例えば、ラベルのパターンが「/a」及び「/a/b/c/d」である場合、「/a/b/c/d」、「/a/b/c」、及び「/a/b」とラベル付けされた空間領域に関連する、辺上の3つの中断点1730が存在する。一部の例において、これらの点は、辺を4つの等しい長さのセグメントに分割して均等に離間される。一部の例において、中断点1730の間及び中断点1730とメッシュ点1710〜1712との間の離間は、均等であるとは限らず、例えば、メッシュ点と中断点との間は最小の離間をし、中断点の間は均等に離間する。
ラベルのパターンが、「/a/b」及び「/a/c」など、共通の接頭辞及び異なる接尾辞(すなわち、接頭辞「/a」並びに接尾辞「/b」及び「/c」)を有する場合、点
の数は、接尾辞の長さに依存する。この例においては、2つの中断点、すなわち、「/a」の領域に対する「/a/b」の領域の境界のための中断点と、「/a」の領域と「/a/c」の領域との境界のための中断点とが必要とされる。したがって、辺上に置かれるべき点の数は、2つのラベルの接尾辞の長さの合計である。
図17Aに示される例は、比較的単純であり、両端点が「/0」とラベル付けされる辺上に中断点がないか、又は「/0」とラベル付けされた1つの端点及び「/0/2」とラベル付けされた1つの端点を有する辺上に1つの中断点があるかのどちらかである。図17Aにおいて、これらの中断点は、辺の中間に置かれる。
図17Bを参照し、ステップ(2b.)について続けると、同じ外形に対応する中断点が、空間領域に関する要件を満たす閉じた境界を形成するために線セグメント1740によってつなぎ合わされる。
(外側の外形を描くことが内側の外形を隠してしまわないように)内側の外形を描く前にまず外側の外形を描いて中身の詰まった外形を与えることを後でサポートするために、これらの外形を深くなっていく入れ子の深さによってソートすることが有用である。外形が別の外形内に入れ子にされるかどうかを判定する1つの方法は、外形上の点1730から初めて、メッシュ辺1720を詳しく調べ、フレームの端点1711〜1712に到達することである。詳しく調べられる経路に沿って、奇数回またがれるすべてのその他の外形は、初めの外形を囲み込む。この手順を繰り返し使用して、(ラベル付けとは対照的に)幾何学的入れ子による領域の部分的な順序付けが確立される。
上で与えられた手順は、必ずしも連続的な空間領域をもたらさず、そのような途切れた領域は、強制された連続的な形態と比較して改善された視覚的表現を提供し得ることを認識されたい。図18A〜Bを参照すると、2つのブロック1821〜1822が「/0/a」とラベル付けされ、2つのブロック1823〜1824が「/0/b」とラベル付けされる。上で概説された手順に従って、三角形メッシュ及び中断点は、図18Aに示される位置にある。それから、領域の外形が、図18Bに示されるように形成される。ラベル「/0/a」を有するブロック1821〜1822は、視覚的表現の2つのバラバラな空間領域1830〜1831内に見つかり、一方、ブロック1823〜1824は、視覚的表現の単一の接続された領域1840内に見つかる。したがって、場合によっては、特定のラベル(例えば、「/0/a」)に関連する領域は、途切れており、複数の構成部分によって形成される可能性があることは明らかであるに違いない。
再び図17Cを参照すると、外形を改善するステップ(3.)は、初めに、ステップ(3a)において三角形メッシュの辺1720に沿って中断点1730を再配置することによって実行される。1つの実装形態において、この再配置は、反復的な「緩和(relaxation)」の手法で実行される。中断点は、今度は、例えば、予め定義された順序又はランダムな順序で考慮される。その中断点の外形の長さが辺に沿って点を動かすことによって短くされ得る場合、その中断点は、離間の制約に従って移動される。一部の例において、離間の制約は、辺の端点1710〜1712と中断点との間の最短距離と、中断点の間の最短距離とを含む。一部の例において、これらの最短距離は予め決定される。その他の例において、これらの最短距離は、辺の長さ及び辺上の中断点の数に従って計算される。一部の例において、最短距離は、一様な見た目を生み出すためにブロック上の端点と中断点との間の一定の最短距離を与えるように計算される。
図17Cにおいては、改善手順の前及び後の2つの代表的な中断点1730が示され、残りの中断点は、それらの中断点の最終的な位置に示される。
再び図16を参照すると、外形1631が、中断点において外形の角を「丸める」ことによって図17Cの外形1740を処理することによって得られる。例えば、ブロックの頂点の点1710に関連する角に関して、その点を中心とする円弧が、外形の一部を置き換えるために使用される。例えば、その他の手法を使用して円弧を導入して、スプラインを使用することによってなど、外形を平滑化する又は丸めるその他の手法が使用され得る。
一部の実施形態においては、元の仕様のブロックが重なり合っていないという要件が、ブロックの重なり合わない部分をまず特定し、それから上述のように手法を実行することによって緩められる。例えば、図19に示されるように、「/0/a」及び「0/b」とラベル付けされた2つの重なり合う長方形が、まず、(接触する長方形であると等価的に考えられ得る)直線的な側面を有する2つの不規則な多角形によって置き換えられる可能性がある。それから、結果として得られる領域の外形が、不規則な多角形を使用して計算され、そして、これらの計算された外形が、元のブロックのレンダリングにおいて使用される。
上述の手法の代替においては、ブロックに加えて、線が、空間領域に包含される可能性がある。例えば、ブロックの頂点の点1710に加えて、ブロックをつなぎ合わせる(例えば、視覚的に線として表される)リンクに沿ったさらなる点が、同じラベルを有するブロックの間のリンクをそのラベルのための空間領域と一緒にあるようにするために使用される可能性がある。別の例として、特定の中断点1730が、例えば、データ処理の変化を特徴付ける記号の位置(例えば、「for all」セクションの初め又は終わり)のリンク
に沿った地点に導入され、それによって、外形にその記号を通過させる可能性がある。
図20A〜Bを参照すると、より複雑な例が示され、三角形メッシュが、図20Aに示され、プログラムの仕様に関する結果として得られる入れ子にされた空間領域が、図20Bに示される。
5 制御グラフのための状態機械
実行するためにデータ処理グラフを準備するプロセスにおいて、コンパイラ/インタープリタ120は、制御グラフ生成手順において制御グラフをさらに生じさせる。一部の実装形態において、制御グラフを生じさせることは、個々の構成要素に対応するタスクを実行するための実行可能コードと、それらのタスクの間のデータ及び制御のフローを決定する構成要素の間のさまざまなリンクに対応するコードとを生じさせることを含む。これは、コンパイラ/インタープリタ120によって発見された実行セットの階層の間のデータ及び制御の転送を含む。
そのような実行可能コードを生じさせることの一部は、いくつかのデータ構造の表現において、すべての有効化/抑制実行セットを含むそれぞれの実行セットに関して対応する制御グラフを生じさせることを含む。実行セット内のすべての入れ子にされた実行セットは、制御グラフを生じさせる目的で、その入れ子にされた実行セットを表す単一の構成要素として扱われる。この代表構成要素のポートは、入れ子にされた実行セットの境界をまたがるリンクに接続される入れ子にされた実行セット内の構成要素のポートに対応する。そのとき、コンパイラ/インタープリタ120は、この制御グラフを使用して制御コードを生じさせる。この生じさせられた制御コードは、ランタイムで実行を制御する状態機械を効果的に実装する。特に、実行が始まると、この生じさせられた制御コードは、構成要素又はポートがこの状態機械のある状態から別の状態へといつ遷移するのかを制御する。
図12Aは、コンパイラ/インタープリタ120がルート実行セットの第1の構成要素の対1202及び第2の構成要素の対1204を制御グラフ1206へとどのように組み
合わせるかの例を示す。この例において、第1の構成要素の対1202は、それぞれのコレクションデータポート1212、1214によって接続された第1の構成要素1208及び第2の構成要素1210を含む。第2の構成要素の対1204は、それぞれのスカラデータポート1220、1222によって接続された第3の構成要素1216及び第4の構成要素1218を含む。
コンパイラ/インタープリタ120は、データ処理グラフのトポロジーによって示されたように開始構成要素1224及び終了構成要素1226を追加し、開始構成要素1224及び終了構成要素1226に構成要素を接続することによって制御グラフを生成する。開始構成要素及び終了構成要素は、いかなるコンピューティングタスクも実行しないが、特定の構成要素の実行を開始し、実行セット内のすべての構成要素が実行を終えたときを決定するために使用される制御信号を管理するためにコンパイラ/インタープリタ120によって使用される。
特定の構成要素が開始構成要素1224に接続される必要があるかどうかを決定するために、コンパイラ/インタープリタ120は、その構成要素への入力を検査して、上述のように制御ポートとスカラポートとの両方を含む上流のシリアルポートへの既存のリンクに基づいて、その構成要素が実行を開始するように指定されていないかどうかを決定する。
例えば、構成要素がその構成要素の制御入力ポートへのリンクを持たない場合、その構成要素に開始するように伝える制御信号がないためにその構成要素は実行を開始しない可能性がある。一方、たとえ制御入力がなかったとしても、構成要素が有するデータ入力の種類によっては、データの到着がその構成要素の実行をトリガすることがあり得る。例えば、構成要素がスカラ入力ポートを有する場合、その構成要素の制御入力ポートに制御信号が存在しないときでさえ、その構成要素は、その構成要素がその構成要素のスカラ入力ポートにおいてデータを見るとすぐにやはり実行を開始する。一方、構成要素がコレクションデータ入力を有するだけである場合、これは起こらない。そのような構成要素は、実行をトリガするための制御入力又はスカラデータ入力を持たない場合、開始構成要素1224への接続を必要とする。
図12Aの文脈で、第1の構成要素1208は、制御入力もスカラデータ入力も持たない。したがって、第1の構成要素1208が自ら実行を開始する方法はない。したがって、第1の構成要素1208は、開始構成要素1224にリンクされなければならない。第3の構成要素1216は、同様に、制御入力もスカラデータ入力も持たない。したがって、第3の構成要素1216も、開始構成要素1224にリンクされなければならない。
第4の構成要素1218は、制御入力を持たない。しかし、第4の構成要素1218は、第3の構成要素1216からスカラデータ入力を受け取るように接続される。したがって、第4の構成要素1218は、その第4の構成要素1218の入力スカラポート1222を通じてデータを受け取ると実行を開始する。したがって、第4の構成要素1218は、開始構成要素1224への接続を必要としない。
第2の構成要素1210は、第1の構成要素1208からデータを受け取るように構成される。しかし、このデータは、入力スカラポートではなく、入力コレクションポート1214において受け取られる。結果として、第2の構成要素1210も、第1の構成要素と同様に、開始構成要素1224に接続されなければならない。
コンパイラ/インタープリタ120は、構成要素のうちのどれが終了構成要素1226に接続される必要があるのかをやはり特定する必要がある。
概して、構成要素は、制御出力リンクも(いかなる種類の)データ出力リンクも持たないとき、終了構成要素1226に接続される。図12Aの左側の図において、この条件は、第2の構成要素1210及び第4の構成要素1218によってのみ満たされる。したがって、図12Aの右側に示されるように、これら2つの構成要素だけが、終了構成要素1226に接続される。
図12Bは、図の左側の第1の構成要素1208と第3の構成要素1216との間に制御リンクが存在することを除いて図12Aと同様である。規則に則して、結果として得られる代替的な制御グラフ1206’においてはもはや第3の構成要素1216を開始構成要素1224に接続する必要がない。
制御グラフは、構成要素及びそれらの構成要素のシリアルポートが上流の構成要素及びシリアルポートに関して起こる遷移に応答してある状態から別の状態に遷移する分散型状態機械(distributed state machine)を効果的に定義する。概して、上流の構成要素は
、ある状態から別の状態に遷移し、その構成要素の出力シリアルポートを遷移させ、それが、下流の構成要素のリンクされたシリアル入力ポートを遷移させ、それが、それらの下流の構成要素を遷移させ、以下同様である。この振る舞いを実現するための特定の種類の状態機械の一例が、構成要素及びそれらの構成要素のシリアルポートに関する状態遷移図を参照して下でより詳細に説明される。
状態機械の遷移を制御するために、コンパイラ/インタープリタ120は、特定の構成要素によって表されるタスクを実行するためのコードに追加的な制御コードを継ぎ足す。本明細書において使用されるとき、「継ぎ足すこと」は、制御コードを前に付加すること、後ろに付加すること、又は前に付加することと後ろに付加することとの両方を意味する。前に付加される制御コードは、本明細書において「前書き(prologue)」コードと呼ばれ、後ろに付加される制御コードは「後書き(epilogue)」コードと呼ばれる。構成要素に関する前書きコードは、構成要素がその構成要素のタスクを実行する前に実行される。構成要素に関する後書きコードは、構成要素610Aがその構成要素610Aのタスクを完了した後に実行される。
継ぎ足された制御コードは、アキュムレータ(例えば、入力が構成要素を呼び出す準備ができていることを示す値までカウントダウンするカウンタ)の値又はフラグ(例えば、構成要素が抑制されたことを示す値に設定されるフラグ)の状態などの記憶された状態情報を検査して、1又は2以上の下流の構成要素にそれらの下流の構成要素のそれぞれのタスクを実行させるべきか否かを決定する。
一実施形態において、前書きコードは、上流の出力シリアルポートの状態を監視し、構成要素の入力シリアルポートの状態及び構成要素の状態を更新し、一方、後書きコードは、構成要素がその構成要素のタスクの実行を完了した後で構成要素の出力シリアルポートを更新する。
別の実施形態においては、下流の構成要素の前書きコードが上流の出力シリアルポートを監視する代わりに、上流の構成要素の後書きコードが、下流の入力シリアルポートの集合的な状態を更新し、入力シリアルポートの数に初期化されたカウンタが0になるときなど適切なときに下流の構成要素の前書きコードの実行をトリガするためにその集合的な状態を監視する。代替的に、カウンタが入力ポートの数からカウントダウンする(又は入力ポートの数にカウントアップする)代わりに、異なる構成要素の異なるポートの状態を表すビットを記憶するビットマップなどの、構成要素をトリガするための状態情報を記憶するために別の形態のアキュムレータが使用される可能性がある。
この継ぎ足された制御コードの結果として、タスクの終了は、データグラフによって表されるデータ制御の依存関係に合致するようにして、及び複数の構成要素の同時動作と、1又は2以上の上流の論理的状態のコレクションの発生に基づいて特定の構成要素の実行がいつ始まり、いつ終わるのかを制御するための条件付き制御論理の使用とを可能にするようにしてその他のタスクの自動的な実行に自動的につながる。
図13A及び13Bは、構成要素のために使用される可能性がある例示的な状態機械に関する状態遷移図(図13Aの状態遷移図1300)及びそれらの構成要素のシリアルポートのために使用される可能性がある例示的な状態機械に関する状態遷移図(図13Bの状態遷移図1310)を示す。状態遷移図は、アクティブ状態1304が継続中の実行に関連付けられ、ポートではなく構成要素だけが実行を行うので、構成要素だけがアクティブ状態1304であり得るということを除いて同様である。
図13A及び13Bを必要に応じて参照して、状態間の各遷移をたどるために必要な条件はもちろん、両方の状態遷移図のあり得る状態のすべてが説明される。状態遷移図のこの説明において言及される入力ポート及び出力ポートのすべては、制御グラフ内の構成要素が(コレクションポートではなく)シリアルポートをリンクしさえすればよいのでシリアルポートである。制御グラフ内の特定の構成要素は、状態遷移図1300の4つの論理的状態のうちの1つにある可能性がある。第1の状態は、保留状態1302である。これは、制御グラフに関連する実行セットが実行を始めるときに構成要素が開始する状態である。構成要素は、構成要素のいずれかの入力ポートが保留状態1312にある場合、保留状態1302のままである。構成要素は、たまたま入力ポートを持たない場合、保留状態1302で始まるが、直ちに保留状態1302から遷移できるようになる。
保留状態1302から、構成要素は、アクティブ状態1304か抑制状態1306かのどちらかに遷移し得る。
構成要素は、その構成要素の入力ポートのいずれも保留状態1312になく、その構成要素の入力ポートのすべてが抑制状態1316にあるわけでない(つまり、少なくとも1つの入力ポートが完了状態1314にある)場合、アクティブ状態1304に遷移する。ポートは、デフォルトで「必須」であるが、「任意」と印を付けられ得る。任意のポートは、(警告がある可能性があるが)エラーを引き起こすことなく別のポートに接続されないまま残され得る。未接続のまま残されたすべての任意のポートは、自動的に完了状態1314になる。構成要素は、その構成要素のタスクをまだ実行している間はアクティブ状態1304のままである。構成要素がアクティブ状態1304にある間に、その構成要素の出力ポートは、異なる時間にか又は一緒にかのどちらかで、保留状態1312から完了状態1314か又は抑制状態1316かのどちらかに遷移する可能性がある。その構成要素のタスクの実行を完了すると、構成要素は、アクティブ状態1304から完了状態1308に遷移する。
構成要素は、構成要素のタスクが実行を終え、その構成要素の出力ポートのすべてが「解決済み(resolved)」である、つまり、もはや保留でない場合、完了状態1308に遷移する。
構成要素は、カスタムの制御論理が原因であるか、その構成要素の入力ポートのすべてが抑制されていることが原因であるか、その構成要素の必須の入力ポートのうちの少なくとも1つの抑制が原因であるか、又は構成要素内の処理されていないエラーが原因であるかのいずれかで、構成要素の前書きが抑制状態1306への遷移をトリガした場合、抑制状態1306にある。構成要素の出力ポートのすべても、抑制を下流に伝搬するために抑
制状態1316になる。
ポートに関して、状態遷移の規則は、ポートが入力ポートであるのか又は出力ポートであるのかに応じて決まる。
ポートの初期状態は、保留状態1312である。概して、入力ポートは、その入力ポートがリンクされる上流の出力ポートの状態に従う。したがって、上流の出力ポートが遷移するとき、制御グラフ内でその出力ポートにリンクされた入力ポートは、同じ状態に遷移する。出力ポートは、構成要素がその構成要素のアクティブ状態の間に出力ポートがどの状態になるべきかを決定するまで保留のままである。
上述のように、入力ポートは、それらの入力ポートがリンクされる上流の出力ポートに従う。したがって、単一の上流の出力ポートにリンクされた入力ポートに関して、その入力ポートは、その入力ポートがリンクされる上流の出力ポートが完了状態1314に遷移するとき、完了状態1314に遷移する。入力ポートが複数のリンクを通じて複数の上流の出力ポートにリンクされる場合、入力ポートは、その入力ポートの上流の出力ポートのうちの少なくとも1つが完了状態1314に遷移した後、完了状態1314に遷移する。そうではなく、すべての上流の出力ポートが抑制状態1316に遷移する場合、入力ポートは、抑制状態1316に遷移する。一部の実施形態は、入力ポートを完了状態1314に遷移させるべきか又は抑制状態1316に遷移させるべきかを決定するためにこのデフォルトの「OR論理」とは異なるその他の論理(例えば、すべての上流の出力ポートが完了状態1314にある場合に限り入力ポートが完了状態1314に遷移する「AND論理」)を使用する。構成要素の入力データポートが完了状態1314になる場合、データ要素は、その構成要素が処理するための準備ができている。構成要素の出力データポートが完了状態1314になる場合、データ要素は、その構成要素から下流に送信するための準備ができている。
入力ポートがそれらの入力ポートがリンクされる上流の出力ポートの状態に従うという規則に則して、入力ポートは、その入力ポートがリンクされる上流の出力ポートが抑制状態1316になるとき、抑制状態1316になる。出力ポートは、出力ポートが抑制されるべきであると決定した結果をアクティブな構成要素が計算したからであるか、又は上流の抑制された構成要素からの抑制が下流に伝搬することを可能にするためか、又は構成要素内に処理されていないエラーがあった場合かのいずれかで、抑制状態1316になる。一部の実施形態においては、コンポーネント毎に抑制を下流に伝搬させる必要なしに抑制された構成要素に根を持つ下流の構成要素の木構造を抑制することによってコンパイラが実行を最適化することが可能である。
その他の実施形態においては、さまざまな代替的な状態機械のいずれかが使用される可能性があり、それらの状態機械においては、コレクションポートの間のリンクも制御グラフに含められる可能性がある。一部のそのような実施形態において、コレクションポートに関する状態遷移図は、構成要素に関する状態遷移図1300にあるような保留状態、完了状態、及び抑制状態に加えてアクティブ状態を含む可能性がある。コレクションポートは、そのコレクションポートが(出力ポートとして)データを生成しているか又は(入力ポートとして)データを消費しているとき、アクティブ状態にある。例えば、入力コレクションポートに関して、すべての入力ポートが抑制されるわけではないと決定されるとすぐに、第1のデータ要素が上流で生成されるときにアクティブ状態がトリガされる可能性がある。一部の実施形態においては、コレクションポートに関して抑制状態が存在しない。コレクションポートに関する状態遷移を含む制御グラフ内の構成要素によって従われる遷移規則は、入力スカラポート又は制御ポートに関して完了状態が処理されたのと同じ方法で入力コレクションポートに関してアクティブ状態を処理する可能性がある。
6 コンピューティングプラットフォーム
再び図1を参照すると、データ処理グラフの構成要素のインスタンスが、データ処理グラフを実行する文脈でタスクとして生成され(spawned)、概して、コンピューティング
プラットフォーム150の複数のコンピューティングノード152において実行される。以下でより詳細に検討されるように、コントローラ140は、例えば、計算負荷の割り振り、通信又は入力/出力のオーバーヘッドの削減、及びメモリリソースの使用に関連するシステムの性能目標を達成するために、それらのタスクの実行のスケジューリング及び位置(locus)の監視制御の態様を提供する。
概して、コンパイラ/インタープリタ120による変換後、計算全体は、コンピューティングプラットフォーム150によって実行され得る目標言語のプロシージャによってタスクに基づく仕様130として表現される。これらのプロシージャは「spawn」及び「wait」などのプリミティブを利用し、高レベルの(例えば、グラフに基づく)プログラムの
仕様110内の構成要素に関してプログラマによって規定された作業手順をそれらのプロシージャの中に含むか又はそのような作業手順を呼び出す可能性がある。
多くのインスタンスにおいて、構成要素の各インスタンスは、いくつかのタスクが単一の構成要素の単一のインスタンスを実施し、いくつかのタスクが実行セットの複数の構成要素の単一のインスタンスを実施し、いくつかのタスクが構成要素の連続的なインスタンスを実施するようにしてタスクとして実施される。構成要素及びそれらの構成要素のインスタンスからの特定のマッピングは、結果として起こる実行が計算の意味的定義に合致したままであるようにコンパイラ/インタープリタの特定の設計に応じて決まる。
概して、ランタイム環境内のタスクは、例えば、1つの最上位のタスクが、例えば、データ処理グラフの最上位の構成要素の各々のために1つずつ複数のタスクを生成する(spawning)ようにして階層的に構成される。同様に、実行セットの計算は、複数の(つまり、多くの)サブタスクがコレクションの要素を処理するためにそれぞれ使用されるようにしてコレクション全体を処理するために1つのタスクを有する可能性がある。
ランタイム環境において、生成された各タスクは、ありうる状態のセットの中の1つの状態にある可能性がある。初めて生成されるとき、タスクは、最初に実行される前、Spawned状態にある。実行するとき、タスクは、実行状態にある。時々、タスクは、中断状態
にある可能性がある。例えば、特定の実装形態において、スケジューラは、タスクがプロセッサ利用のクォンタムを超えたとき、リソースを待っているときなどにそのタスクをSuspended状態にする可能性がある。一部の実装形態において、タスクの実行は、先取りさ
れ(preempted)ず、タスクが、制御を放棄しなければならない。3つのSuspended下位状態(substate)、すなわち、Runnable、Blocked、及びDoneが存在する。タスクは、例えば
、そのタスクがそのタスクの計算を完了する前に制御を放棄した場合にRunnableである。タスクは、例えば、親タスクがそのタスクの戻り値を回収する前にそのタスクがそのタスクの処理を完了したときにDoneである。タスクは、そのタスクがそのタスクの外部のイベント、例えば、別のタスクの完了(例えば、そのタスクが「wait for」プリミティブを使用したことが原因)、又はデータレコードが利用可能になること(例えば、in.read( )又はout.write( )関数の1つの実行をブロックする)を待っている場合、Blockedである。
再び図1を参照すると、各コンピューティングノード152は、1又は2以上の処理エンジン154を有する。少なくとも一部の実装形態において、各処理エンジンは、コンピューティングノード150上で実行される単一のオペレーティングシステムプロセスに関連付けられる。コンピューティングノードの特徴に応じて、単一のコンピューティングノード上で複数の処理エンジンを実行することが効率的である可能性がある。例えば、コン
ピューティングノードは、複数の別々のプロセッサを有するサーバコンピュータである可能性があり、又はサーバコンピュータは、複数のプロセッサコアを有する単一のプロセッサを有する可能性があり、又は複数のコアを有する複数のプロセッサの組合せが存在する可能性がある。いずれの場合も、複数の処理エンジンを実行することが、コンピューティングノード152上で単一の処理エンジンのみを使用するよりも効率的である可能性がある。
処理エンジンの一例は、仮想マシンに関連してホストされる。1つの種類の仮想マシンは、Java Bytecodeとしてコンパイルされた形態で規定されるタスクが実行され得る環境を提供するJava仮想マシン(JVM,Java Virtual Machine)である。しかし、仮想マシンアーキテクチャを使用する可能性があるか又は使用しない可能性があるその他の形態の処理エンジンが、使用され得る。
図14を参照すると、コンピューティングノード152の処理エンジン154の各々が、1又は2以上のランナ(runner)1450を有する。各ランナ1450は、1又は2以上のプロセス又はプロセススレッドを使用して実行可能なタスクを実行する。一部の実装形態において、各ランナは、関連するプロセススレッドを有するが、スレッドとのランナのそのような関連付けは、必須ではない。いつでも、各ランナは、計算の最大で1つの実行可能なタスクを実行している。各ランナは、別個の実行可能キュー1466を有する。計算のそれぞれの実行可能なタスクは、システムのランナ1450の1つの実行可能キュー1466内にある。各ランナ1450は、現在実行されているタスクを監視し、そのタスクが状態をDone、Blocked、又はSuspendedに変えるときに実行可能キュー1466から別のタスクを選択し、その別のタスクを実行するスケジューラ/インタープリタ1460を有する。タスクは、ランナに関連付けられ、実行可能でないランナのタスクは、例えば、ブロック及び実行済みキュー(blocked and done queue)1468に示されるように実行可能キュー1466の外に保持される。
ランナ1450は、処理エンジン154が初期化され、例えば、エンジン毎に予め構成された数のランナを生成するときに生成される可能性がある。以下で検討されるように、一部の実装形態においては、データ処理グラフの実行中でさえも、ランナが処理エンジンに追加されるか又は処理エンジンから削除される可能性があり、処理エンジン自体が、コンピューティングプラットフォーム150に追加され、削除される可能性がある。しかし、下の最初の説明に関して、我々は、処理エンジンの数と、それぞれの処理エンジン内のランナの数とが一定のままであると仮定する。
例として、データ処理グラフの処理は、最上位のタスクのMainプロシージャの実行から始まる。例えば、タスクに基づくコントローラ140は、処理エンジン1450のうちの1つのモニタ1452と通信するコンピューティングノードのうちの1つにMainプロシージャの実行を開始するように命令する。この例において、モニタ1452は、処理エンジンのうちの1つの実行可能キュー1466にMainプロシージャを実行するためのタスクを入れる。この例において、ランナはアイドル状態であり(つまり、そのとき実行されているいかなるその他のタスクもなく、実行可能キュー内にいかなるその他の実行可能タスクもない)、したがって、そのランナのスケジューラ/インタープリタ1460は、実行可能キューからタスクを取り出し、タスクの実行を開始する。プロシージャが解釈される必要がある言語で表現されるとき、スケジューラ/インタープリタ1460は、プロシージャの連続的なステートメントを解釈する。
この例において、Mainプロシージャの第1のステートメントは、順序付けられていないコレクションのフローをサポートするリンクのためのリンクバッファ1470を生成し(つまり、リンクバッファ1470のためのメモリを割り振り)、この例において、リンク
バッファ1470は、順序付けられていない無制限のバッファ、バッファ1、バッファ2、及びバッファ3を含む。この種の構成要素間リンクを生成し、上流のポートがコレクションポートである任意のリンクを含む(リンクバッファ1470を含む)これらのリンクのための関連する計算リソースを管理するためにさまざまな手法が使用される。一部の例において、リンクバッファ1470は、コレクションの移動元を表す出力コレクションポートのためのバッファと、コレクションの移動先を表す入力コレクションポートのための別個のバッファとを含む。これらのバッファは、コレクションに対する処理が始まる直前にランタイムで割り振られ、コレクションに対する処理が終了した直後に割り振りを解除される(つまり、バッファのために使用されるメモリを解放する)可能性がある。この例において、これらのリンクバッファ1470は、タスクのランナが実行されている処理エンジン154のメモリ内で割り振られる。概して、バッファが生成されるメモリは、半導体ランダムアクセスメモリ(RAM,random access memory)内にあるが、一部の実装形態においては、ディスクなどのその他のストレージデバイスが、バッファデータの少なくとも一部を記憶するために使用される可能性がある。その他の手法において、バッファはランナ自体のローカルにある可能性があることに留意されたい。実際は、処理エンジン154がオペレーティングシステムプロセスとして実装される場合、バッファは、そのプロセスのアドレス空間内のメモリ領域として生成される。したがって、バッファに対する直接ハードウェアアドレスに基づくアクセスは、そのプロセス内で実行される命令に制限される。そのような手法においては、複数のランナがバッファを読むか又はバッファに書くことができる場合、バッファに対する少なくとも何らかの同期及びアクセス制御、例えば、ロック又はセマフォを使用することが必要とされる可能性がある。各ランナがオペレーティングシステムプロセス内で単一のスレッドとして実装される手法において、バッファは、特定のランナと関連付けられる可能性があり、すべてのアクセスは、そのランナに制限される可能性があり、それによって、複数のスレッドからの潜在的な競合を防止する。下の検討において、我々は、バッファが処理エンジン内の任意のランナからアクセス可能であり、好適なアクセス制御がそのような共用アクセスを許容するように実装されると仮定する。
Mainプロセスの次のステップは、Mainプロセスによって呼び出されるspawn又はforall
プリミティブを含む。概して、少なくともデフォルトで、1つの子タスク又は複数の子タスクを生成することは、それらのタスクを同じランナ内で最初に親として形成させる。例えば、spawn Work_Read_External_Dataタスクが、同じランナ上で生成される。タスクが
外部データにアクセスしている限り、タスクは、その外部データへのI/Oインターフェース1464を利用する可能性がある。例えば、そのインターフェースは、外部データベースへのオープン接続、ネットワークデータ接続のエンドポイントなどからなる可能性がある。そのようなI/Oインターフェースは、特定のランナに拘束される可能性があり、したがって、そのインターフェースを使用するタスクは、ランナ間のタスクの潜在的なマイグレーションの文脈で下でさらに検討されるように、そのランナからのみインターフェースにアクセスするように求められる可能性がある。この例において、我々は、無理なく計測され、例えば、バッファ1を処理エンジンの能力を超えて大きくなるようにすることによってシステムを「手に負えない状態に追い込む」ことのない方法でタスクがバッファ1を満たすと仮定する。例えば、リソースの混雑又は消耗を避けるための制御の態様の手法も、下で検討される。
Work_Read_External_Dataタスクの実行と同時に、forall Work_Aが、バッファ1から読まれるレコードのそれぞれに関してタスクを生成させる。特に、「forall」プリミティブは、プリミティブの引数によって特定されるタスクの複数のインスタンスを実行させ、インスタンスの数は、概して、ランタイムで受け取られるデータ要素の数によって決定され、それらのインスタンスが実行される場所及びそれらのインスタンスが呼び出される順序は、ランタイムで後で決定するためにコンパイラによって制限されないままにされる可能
性がある。上で検討されたように、デフォルトで、これらのタスクは、やはり同じランナ1450上で生成され、ここでもその他の制御なしに、データがバッファ1から利用可能になるのと同じ速さで生成される。Work_B及びWork_Write_External_Dataに関するタスクが、同じランナ上で同様に生成される。
タスクに基づく仕様は、ランタイムコントローラがすべてのデータを処理させるためにタスクの分散をどのようにして実施するかを明示的に規定することなく「forallプリミティブ」を利用する。上で検討されたように、ランタイムコントローラによって使用され得る1つの手法は、同じコンピューティングノード上で別々のタスクを生成し、それからマイグレーションの特徴に頼ってタスクを別々のノード上で実行させ、それによって、負荷を分散することである。「forall」プリミティブがタスクを複数のノード上で直接実行させるその他の手法が、使用される可能性がある。インメモリデータベースのテーブルの行のインデックスに基づくサブセットを定義するカーソル(cursor)の場合、カーソルforallプリミティブの実装形態は、異なるノードに記憶されたレコードにそれぞれが関連する部分にカーソルを分割させる可能性があり、タスクは、異なるノード上のカーソルの別々の部分のために生成され、それによって、処理及びデータストレージの局所性をもたらす。しかし、コンパイラ120の出力であるタスクに基づく仕様130内で使用される「forall」プリミティブを実行するために、ランタイムコントローラ及び分散型コンピューティングプラットフォームの1又は2以上の実施形態に広範な手法が実装され得ることを理解されたい。一部の例において、手法の選択は、例えば、レコードの数、コンピューティングノード上のデータの分散、ノードに対する負荷などに基づくランタイムの判断に依存する可能性がある。いずれの場合も、「forall」プリミティブを実装するために使用される方法は、データ処理グラフの作成者又はコンパイラの設計者に必ずしも知られていない。
システムの特徴は、タスクがそれらのタスクが生成された後にランナ間で転送され得ることである。極めて広く、タスクのそのような転送は、アイドル状態であるか又は少なくともあまり負荷がかかっていないランナがタスクを別のランナからそのランナに転送させる「強奪(stealing)」又は「プル」メカニズムによって実装される。さまざまな基準が使用され得るが、閾値よりも少ない数のタスクがそのランナの実行可能キュー内にあるかどうかなどのローカルの基準に基づいて、ランナの実行可能キュー1466内の実行可能なタスクの数が、そのランナがその他のランナから強奪するタスクを探すべきかをどうかを決定する可能性がある。一部の実装形態においては、複数のランナ上のタスクキューのバランスを調整し直すためにより大域的な判断プロセスが使用され得るが、全体的な効果は同様である。
少なくとも一部の実施形態において、あるランナから別のランナへのタスクの強奪は、そのタスクに関するすべてのデータを転送することを伴うとは限らない。例えば、現在の実行「フレーム」内でアクセス可能なデータ(例えば、現在のプログラムのスコープ、例えば、現在のサブルーチン呼び出しからアクセス可能な局所及び大域変数に関するデータ)のみが、タスクの「ホーム」ランナへの逆の参照と一緒にまとめられる。このデータは、マイグレーションの移動先のランナにおいてタスクの実行可能なコピーを作成するのに十分であり、移動先の実行可能キュー内のエントリは、そのランナにおける実行のために準備ができている。
マイグレーションされるランナが、実行を完了するか、又は局所変数が利用可能であったプログラムのスコープから戻ることによってランナに転送されたデータを使い尽くすとき、タスクは、ホームランナに戻るように転送され、タスクに関するデータが、合併され、タスクが、もう一度そのタスクのホームランナにおいて実行可能にされる。
単一の処理エンジン内でのタスクの転送中に、ランナ間の通信は、ローカルメモリを通じたものである(つまり、ディスク又はネットワーク通信を避ける)可能性があり、それによって、比較的少ないリソースを消費する。処理エンジン間の強奪及びマイグレーションを容認する実装形態においては、あるランナから別のランナへの移行中、タスクは、比較的少ないリソースを消費し、例えば、計算リソースよりも処理エンジン間の通信リソースを主に消費する。さらに、そのような通信のレイテンシーは、ホームランナに関しては、そのホームランナの実行可能キューが非常に詰まっており、したがって、空である可能性が低いために、及び移動先のランナに関しては、移動先の実行可能キューが空にされることを見越して強奪が行われるので、ホームランナ及び移動先のランナは、転送中、計算に忙しいと推測されるので、それほど重大ではない。
図2A〜Bに示された計算に関連するタスクに関する実行の例においては、タスク強奪メカニズムが、1又は2以上の処理エンジンのランナに計算の負荷を分散させた。しかし、特定のデータアクセスは特定のランナに(又はおそらく特定の処理エンジンに)制限されることに留意されたい。例えば、上で概説したように、バッファ2のデータは、単一のランナ(又はおそらくはランナのグループ)によってアクセスされ得る可能性があり、しかし、バッファ2に書き込む必要がある可能性があるWork_Aタスクは、バッファ2に書き込むことができないランナによって強奪された可能性がある。そのような場合、タスクは、そのタスクが現在実行されているのとは異なるランナにおいて実行されなければならないアクションを行う必要があるとき、「マイグレーション」又は「プッシュ」するようにして好適なランナにマイグレーションされる。
少なくとも一部の例において、計算プラットフォーム150は、大域変数に関する(キー,値)ペアのセットのための大域的データストレージをサポートする。このデータストレージは、複数のコンピューティングノード(又は処理エンジン)上のメモリ(例えば、RAM又はディスク)に分散される可能性がある。キーの名前空間は、キーの指定がすべてのコンピューティングノード152及びそれらのコンピューティングノード152のランナ1450において同じ意味を有するという意味で大域的である。これらの変数の値は、タスクがインスタンス化され、実行され、終了する間持続し、それによって、情報が共通の親タスクを介してあるタスクが別のタスクに渡されることを必要とせずにタスク間でそのような情報を受け渡す方法を提供する。下で検討されるように、キーによる値へのアクセスは、値の使用及び更新がタスクの間の衝突を引き起こさないように制御される。一部の例において、タスクは、それらのタスクの実行の一部又はすべてのために特定の(キー,値)ペアに排他的にアクセスする。
概して、(キー,値)ペアのためのストレージが分散され、任意の特定の(キー,値)ペアが特定のコンピューティングノード152に関連付けられる。例えば、(キー,値)ペアは、そのコンピューティングノードの分散型テーブルストレージ1480に記憶される。一部の実施形態において、spawnプリミティブは、キーの指定と、タスクの局所変数
への関連する変数のマッピングとを可能にする。キーが指定されるとき、生成されるタスクは、そのタスクの実行の継続時間の間、キーに排他的にアクセスする。実行が始まる前に、値が、ストレージからタスクの局所的なコンテキストに渡され、実行が完了した後、局所的なコンテキストの値が、大域的なストレージに戻される。spawnプリミティブが別
の実行されているタスクによって使用中であるキーを指定する場合、これは、新しく生成されるタスクは、そのタスクがキーに排他的にアクセスすることができるまでブロックされる。一部の実装形態においては、各コンピューティングノードが、特定のキーのホームノードであると決定される可能性があり、タスクが生成されることを要求されるとき、その要求は、(キー,値)ペアがあるコンピューティングノードによって処理され、タスクの実行は、最初、そのノードにおいて始まる。代替的な実施形態において、そのような大域的な共有された(キー,値)ペアへの同様の排他的アクセスを行うその他の手法は、例
えば、排他的アクセスの要求を伝達し、その後にキーに関する更新された値によって排他的アクセスの解放を伝達することによって、ストレージと同じ場所においてタスクを開始することを必ずしも含まない。タスクは、デフォルトで、新しい(キー,値)ペアが生成されるときにタスクが実行されているノード上に記憶される新しい(キー,値)ペアを生成する可能性がある。
大域的な状態変数の1つの使用は、コレクションの連続的なレコードの関数の実行中の集約のためのものである。例えば、値が単一のアイテムであるのではなく、大域的なストレージは、キーに割り当てられる値の窓(window)を保持する。したがって、プログラミングモデルにおいて、値は、キーに関連して保持される履歴に追加される可能性があり、前に追加された値の関数が、提供される可能性がある。値の窓は、時間窓によって値の数(つまり、最後の100個のアイテム)に従って定義され得る(つまり、例えば、値が追加された時間によって、又は各値が追加されるときにその値と一緒に提供される明示的なタイムスタンプによって定義される最後の10分間に追加されたアイテム)。プログラミングモデルは窓から外れる古い値の明示的な削除を必要とせず、窓の定義は実装形態がそのような削除を自動的に実行することを可能にすることに留意されたい。プログラミングモデルは、そのような窓に基づくキー指定される大域変数を作成し(例えば、窓の性質及び範囲を定義し)、キーに値を追加し、値の窓の関数(例えば、最大、平均、異なる値の数など)を計算するためのいくつかのプリミティブを含む。一部のプリミティブは、キーに関する新しい値を追加することと、窓の関数の戻り値を返すこととを組み合わせる(例えば、キーに新しい値を追加し、追加された最後の100個の値の平均を返す)。
少なくとも一部の例において、大域的なストレージは、ハンドルと呼ばれる識別子を介してアクセスされる共有されたレコード指向のデータも含む。例えば、ハンドルは、データレコードのソース若しくはシンクを特定する可能性があり、又は別の例として、ハンドルは、データセットの中の特定のレコードを特定する可能性がある。概して、ハンドルは、ハンドルポイント(handle point)がデータにアクセスする方法を提供し、さらに、アクセスされているデータの構造の定義を提供するという点で型付けされる。例えば、ハンドルは、データレコードのフィールド(カラム)の構造をそのハンドルに関連付けた可能性がある。
少なくとも一部の例においては、(例えば、コンピューティングノードのメモリ内の)大域的なストレージが、型付きデータの行の1又は2以上のテーブルのためのテーブルストレージを含み、テーブル又はテーブルの特定のレコードが、やはり、ハンドルと呼ばれる識別子を介してアクセスされる。テーブルの行の型は、ベクトル、レコードのベクトルなどによる階層的レコード型である可能性がある。一部の例において、テーブルは、行へのハッシュ又は(順序付き)B木アクセスを提供する1又は2以上のインデックスを有する可能性があり、カーソルが、テーブル、インデックス、又はインデックス及び(1若しくは複数の)キー値から生成される可能性がある。行は、個々に挿入、更新、又は削除され得る。トランザクション処理をサポートするために、タスクは、例えば、データ処理グラフの構成要素に関する処理中に読み取り又は更新アクセスのために1又は2以上のテーブルの1又は2以上の行をロックする可能性がある。テーブルは、データの並列処理のためのコレクションとして、例えば、データ処理グラフのデータの移動元又は移動先として扱われ得る。概して、テーブルは、インデックス付けされ、テーブルの行のサブセットは、カーソルをもたらすインデックスに基づいて選択される可能性があり、そして、そのカーソルが、選択された行をデータソースとして提供するために使用される。一部の例においては、カーソルを分割すること、及びハンドルに関連するレコードの数を推定することなどのアクションのために、さらなるプリミティブがタスクに利用され得る。カーソルは、実行セットのためのデータの移動元として与えられるとき、実行セットの対応するインスタンスにテーブルの行の一部をそれぞれ提供する部分に分割され、それによって、並列
処理を提供する可能性があり、カーソルの適切な分割は、行が記憶されるノード上での実行を可能にする。データテーブルの修正がタスクによって明示的にコミットされるまでそれらの修正がタスクの外に見えないように維持されるようにタスクがトランザクションを実施することによって、データテーブルがやはりアクセスされ得る。一部の例において、そのようなトランザクションのサポートは、テーブルの1又は2以上の行をロックすることによって実装される可能性がある一方、その他の例においては、行の複数のバージョンを含むより複雑な手法が、ロックだけを使用して提供され得るよりも高い潜在的な同時性を提供するために実装される可能性がある。
ファイル、データフロー、及びインメモリテーブルは、すべて、コレクションと呼ばれるものの例である。リーダタスクは、コレクションからレコードを読み、ライタタスクは、コレクションにレコードを書く。一部のタスクは、リーダとライタの両方である。
上で紹介されたように、コレクションを表すフローは、インメモリバッファを使用するランタイムシステムに実装される可能性がある。代替的に、さまざまな実装形態において、データベース内のテーブル又は分散型ストレージシステムを含む任意の形態のストレージが使用され得る。一部の実装形態においては、インメモリ分散型データベースが使用される。一部の実装形態において、コンパイラは、データ処理グラフの作成者に明らかにされるとは限らない方法でインメモリテーブルを使用してそのようなフローを実装する。例えば、コンパイラは、上流の構成要素にテーブルの行を投入させ、下流の構成要素に前に投入された行を読ませ、それによって、順序付けられていないデータフローを実装する可能性がある。ランタイムコントローラは、実行セットに対応するタスクの複数のインスタンスを呼び出して、データ要素がストレージに受け取られたのとは異なる順序でストレージからそれらのデータ要素を取り出すことによって、特定の形式のブロックを防止するようにして上流のコレクションからの駆動データ要素を処理し得る。例えば、タスクのインスタンスは、いかなる特定のその他のインスタンスによるインスタンスのいずれの呼び出しも(つまり、任意の特定のその他のインスタンスが1又は2以上のデータ要素の処理を完了した後まで)ブロックすることなく呼び出され得る。
概して、コレクションのレコードは、そのレコード内のデータが初めに書かれる前にハンドルを有する可能性がある。例えば、テーブルは、レコードのインデックス付けされたセットの移動先として設定される可能性があり、個々のレコードは、それらのレコードに関するデータが書かれる前でさえもハンドルを有する可能性がある。
7 実装形態
上述の手法は、例えば、好適なソフトウェア命令を実行するプログラミング可能なコンピューティングシステムを用いて実装される可能性があり、又はフィールドプログラマブルゲートアレイ(FPGA,field-programmable gate array)などの好適なハードウェ
アで、若しくは何らかの混成の形態で実装される可能性がある。例えば、プログラミングされる手法において、ソフトウェアは、それぞれが少なくとも1つのプロセッサ、(揮発性及び/又は不揮発性メモリ及び/又はストレージ要素を含む)少なくとも1つのデータストレージシステム、(少なくとも1つの入力デバイス又はポートを用いて入力を受け取るため、及び少なくとも1つの出力デバイス又はポートを用いて出力を与えるための)少なくとも1つのユーザインターフェースを含む(分散、クライアント/サーバ、又はグリッドなどのさまざまなアーキテクチャである可能性がある)1又は2以上のプログラミングされた又はプログラミング可能なコンピューティングシステム上で実行される1又は2以上のコンピュータプログラムのプロシージャを含み得る。ソフトウェアは、例えば、データ処理グラフの設計、構成、及び実行に関連するサービスを提供するより大きなプログラムの1又は2以上のモジュールを含む可能性がある。プログラムのモジュール(例えば、データ処理グラフの構成要素)は、データリポジトリに記憶されたデータモデルに準拠
するデータ構造又はその他の編成されたデータとして実装され得る。
ソフトウェアは、ある期間(例えば、ダイナミックRAMなどのダイナミックメモリデバイスのリフレッシュ周期の間の時間)媒体の物理特性(例えば、表面ピット及びランド、磁区、又は電荷)を使用して、揮発性若しくは不揮発性ストレージ媒体又は任意のその他の非一時的媒体に具現化されるなど、非一時的形態で記憶され得る。命令をロードするのに備えて、ソフトウェアは、CD−ROM又は(例えば、多目的若しくは専用のコンピューティングシステム若しくはデバイスによって読み取り可能な)その他のコンピュータ可読媒体などの有形の非一時的媒体上に提供される可能性があり、或いはそのソフトウェアが実行されるコンピューティングシステムの有形の非一時的媒体にネットワークの通信媒体を介して配信される(例えば、伝搬信号に符号化される)可能性がある。処理の一部又はすべては、専用のコンピュータで、又はコプロセッサ若しくはフィールドプログラマブルゲートアレイ(FPGA)若しくは専用の特定用途向け集積回路(ASIC,application-specific integrated circuit)などの専用のハードウェアを使用して実行される
可能性がある。処理は、ソフトウェアによって規定された計算の異なる部分が異なるコンピューティング要素によって実行される分散された方法で実装される可能性がある。それぞれのそのようなコンピュータプログラムは、本明細書において説明された処理を実行するためにストレージデバイスの媒体がコンピュータによって読み取られるときにコンピュータを構成し、動作させるために、多目的又は専用のプログラミング可能なコンピュータによってアクセスされ得るストレージデバイスのコンピュータ可読ストレージ媒体(例えば、ソリッドステートメモリ若しくは媒体、又は磁気式若しくは光学式媒体)に記憶されるか又はダウンロードされることが好ましい。本発明のシステムは、コンピュータプログラムで構成された有形の非一時的媒体として実装されると考えられる可能性もあり、そのように構成された媒体は、本明細書において説明された処理ステップのうちの1又は2以上を実行するために特定の予め定義された方法でコンピュータを動作させる。
本発明のいくつかの実施形態が、説明された。しかしながら、上述の説明は、添付の請求項の範囲によって定義される本発明の範囲を例示するように意図されており、限定するように意図されていないことを理解されたい。したがって、その他の実施形態も、添付の請求項の範囲内にある。例えば、本発明の範囲を逸脱することなくさまざまな修正がなされ得る。さらに、上述のステップの一部は、順序に依存しない可能性があり、したがって、説明された順序とは異なる順序で実行される可能性がある。

Claims (25)

  1. グラフに基づく計算のための方法であって、
    複数のグラフの要素を含む、前記グラフに基づく計算に関する仕様情報を受け入れ、前記仕様情報の視覚的表現をユーザに提供するステップと、
    第1の計算システム上で、前記受け入れられた仕様情報に基づいて前記グラフの要素の1又は2以上のグループの視覚的表現を決定するステップであって、前記視覚的表現が、前記1又は2以上のグループのうちの少なくとも第1のグループのための空間領域の空間的範囲の指示を含み、前記空間領域の前記空間的範囲が、前記空間的範囲が前記第1のグループ内の1又は2以上のグラフの要素を包含するという要件、及び前記空間的範囲が前記第1のグループ外のいかなるグラフの要素も包含しないという要件に少なくとも部分的に基づいて決定される、ステップと、
    前記仕様情報の前記視覚的表現に関連して前記1又は2以上のグループのための空間領域の視覚的表現を前記ユーザに提供するステップとを含む、前記方法。
  2. 1又は2以上のグループの視覚的表現を決定するステップが、受け入れられた仕様情報を処理して前記1又は2以上のグループを形成することを含む請求項1に記載の方法。
  3. 第2の計算システム上のグラフに基づく計算の実行を、形成された1又は2以上のグループと合致させるステップをさらに含む請求項2に記載の方法。
  4. グラフに基づく計算の実行を形成されたグループと合致させるステップが、仕様情報及び前記形成されたグループから前記グラフに基づく計算の実行可能な表現を形成することを含む請求項3に記載の方法。
  5. 第2の計算システム上のグラフに基づく計算の実行を制御するために、形成された1又は2以上のグループに従ってグラフに基づく計算のランタイム仕様を形成するステップをさらに含む請求項2に記載の方法。
  6. 1又は2以上のグループがグラフの要素の入れ子にされたグループを含んでいた請求項1〜5のいずれかに記載の方法。
  7. グラフに基づく計算に関する仕様情報が、複数のグラフの要素の仕様を含み、それぞれのグラフの要素の前記仕様が、前記グラフに基づく計算の視覚的表現内の前記グラフの要素の視覚的表現の位置を含む請求項1〜5のいずれかに記載の方法。
  8. グラフの要素の1又は2以上のグループの視覚的表現を決定するステップが、
    前記グループのための空間領域を取り囲む外形のセット候補の第1の特徴付けを形成することと、
    前記第1の特徴付けから前記グループのための前記空間領域を取り囲む外形の調整されたセットの第2の特徴付けを決定することとを含む請求項1に記載の方法。
  9. 第1の特徴付けを形成することが、グラフの要素の周囲の視覚的表現の少なくとも一部のモザイク式の配列を形成することを含む請求項8に記載の方法。
  10. 第1の特徴付けを形成することが、モザイク式の配列のタイル及び外形のセットの境界の交わりを特定することを含む請求項9に記載の方法。
  11. 第2の特徴付けを決定することが、交わりを調整することを含む請求項10に記載の方法。
  12. 交わりを調整することが、外形の間又は外形とグラフの要素との間の分離の要件に従って、調整された交わりを制約することを含む請求項11に記載の方法。
  13. 第2の特徴付けを決定することが、交わりをつなぎ合わせることによって形成された外形を平滑化することをさらに含む請求項11に記載の方法。
  14. グラフの要素が、部分的に順序付けられたセットを形成し、第1の特徴付けを形成することが、前記部分的な順序付けに従ってグラフの要素の対を分離するいくつかの外形を決定することを含む請求項8に記載の方法。
  15. 第1の特徴付けを形成することが、グラフの要素を分離するいくつかの外形に従って、前記グラフの要素の視覚的表現と外形のセットとの間の線の交わりを決定することを含む請求項14に記載の方法。
  16. 外形の最終的なセットの第2の特徴付けを決定することが、外形の前記最終的なセットを形成するために外形のセット候補の各々の長さを短くすることを含む請求項8に記載の方法。
  17. 長さを短くすることが、外形の間又は外形とグラフの要素の視覚的表現との間の分離の制限によって制約される請求項16に記載の方法。
  18. グラフの要素のグループのための少なくとも何らかの空間領域が、途切れた空間領域を含む請求項8に記載の方法。
  19. 第1のグループ内の1又は2以上のグラフの要素が、リンクによって相互に接続されたノードを含むグラフ内のノードを含む請求項1に記載の方法。
  20. 第1のグループ内のグラフの要素のうちの1又は2以上の各々が、グラフに基づく計算内の計算ステップを表す請求項19に記載の方法。
  21. 各グループのための空間領域の空間的範囲が、前記空間領域に対応する前記グループ内のグラフの要素の少なくとも一部の視覚的表現を含む請求項1に記載の方法。
  22. 第1のグループのための空間領域の空間的範囲が、前記第1のグループのための前記空間領域を取り囲む外形によって規定される請求項1に記載の方法。
  23. 外形が、1又は2以上のグラフの要素の視覚的表現を囲むように形状を決められた第1の湾曲した部分を含み、第1のグループ外の少なくとも1つのグラフの要素の視覚的表現を避けるように形状を決められた第2の湾曲した部分を含む非直線的な形状を有する請求項22に記載の方法。
  24. グラフに基づく計算のための、コンピュータ可読媒体に非一時的形態で記憶されたソフトウェアであって、計算システムに、
    複数のグラフの要素を含む、前記グラフに基づく計算に関する仕様情報を受け入れ、前記仕様情報の視覚的表現をユーザに提供することと、
    前記受け入れられた仕様情報に基づいて前記グラフの要素の1又は2以上のグループの視覚的表現を決定することであって、前記視覚的表現が、前記1又は2以上のグループのうちの少なくとも第1のグループのための空間領域の空間的範囲の指示を含み、前記空間領域の前記空間的範囲が、前記空間的範囲が前記第1のグループ内の1又は2以上のグラフの要素を包含するという要件、及び前記空間的範囲が前記第1のグループ外のいかなるグラフの要素も包含しないという要件に少なくとも部分的に基づいて決定される、決定することと、
    前記仕様情報の前記視覚的表現に関連して前記1又は2以上のグループのための空間領域の視覚的表現を前記ユーザに提供することとを行わせるための命令を含む、前記ソフトウェア。
  25. グラフに基づく計算のための計算システムであって、
    前記グラフに基づく計算に関する仕様情報を受け入れるように構成された入力デバイス又はポートであって、前記仕様情報が、複数のグラフの要素を含む、入力デバイス又はポートと、
    前記仕様情報の視覚的表現をユーザに提供するように構成された出力デバイス又はポートと、
    前記受け入れられた仕様情報に基づいて前記グラフの要素の1又は2以上のグループの視覚的表現を決定するように構成された少なくとも1つのプロセッサであって、前記視覚的表現が、前記1又は2以上のグループのうちの少なくとも第1のグループのための空間領域の空間的範囲の指示を含み、前記空間領域の前記空間的範囲が、前記空間的範囲が前記第1のグループ内の1又は2以上のグラフの要素を包含するという要件、及び前記空間的範囲が前記第1のグループ外のいかなるグラフの要素も包含しないという要件に少なくとも部分的に基づいて決定される、少なくとも1つのプロセッサとを含み、
    前記1又は2以上のグループのための空間領域の視覚的表現が、前記仕様情報の前記視覚的表現に関連して前記ユーザに提供される、前記計算システム。
JP2017089982A 2014-09-02 2017-04-28 ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定 Active JP6479885B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201462044708P 2014-09-02 2014-09-02
US62/044,708 2014-09-02
US201562164175P 2015-05-20 2015-05-20
US62/164,175 2015-05-20

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017511684A Division JP6479966B2 (ja) 2014-09-02 2015-09-02 ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定

Publications (2)

Publication Number Publication Date
JP2017168119A JP2017168119A (ja) 2017-09-21
JP6479885B2 true JP6479885B2 (ja) 2019-03-06

Family

ID=54197047

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017511684A Active JP6479966B2 (ja) 2014-09-02 2015-09-02 ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定
JP2017089982A Active JP6479885B2 (ja) 2014-09-02 2017-04-28 ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017511684A Active JP6479966B2 (ja) 2014-09-02 2015-09-02 ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定

Country Status (11)

Country Link
US (2) US10175951B2 (ja)
EP (1) EP3189418B1 (ja)
JP (2) JP6479966B2 (ja)
KR (2) KR102375347B1 (ja)
CN (3) CN112363712B (ja)
AU (3) AU2015312010B2 (ja)
CA (2) CA3003822C (ja)
DE (1) DE112015003587T5 (ja)
HK (1) HK1243799A1 (ja)
SG (2) SG11201701662XA (ja)
WO (1) WO2016036824A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3189418B1 (en) * 2014-09-02 2022-02-23 AB Initio Technology LLC Visually specifying subsets of components in graph-based programs through user interactions
SG11201701584SA (en) 2014-09-02 2017-03-30 Ab Initio Technology Llc Compiling graph-based program specifications
US10855551B2 (en) * 2014-12-31 2020-12-01 Dell Products L.P. Multi-port selection and configuration
US10579753B2 (en) 2016-05-24 2020-03-03 Ab Initio Technology Llc Executable logic for processing keyed data in networks
US11853690B1 (en) * 2016-05-31 2023-12-26 The Mathworks, Inc. Systems and methods for highlighting graphical models
US11244090B2 (en) * 2016-06-01 2022-02-08 The Mathworks, Inc. Systems and methods for extracting adjustable attributes of model components
US10025566B1 (en) * 2016-10-07 2018-07-17 The Mathworks, Inc. Scheduling technique to transform dataflow graph into efficient schedule
US10599482B2 (en) * 2017-08-24 2020-03-24 Google Llc Method for intra-subgraph optimization in tuple graph programs
US10860618B2 (en) 2017-09-25 2020-12-08 Splunk Inc. Low-latency streaming analytics
CN107729118A (zh) * 2017-09-25 2018-02-23 复旦大学 面向众核处理器的修改Java虚拟机的方法
US10467003B1 (en) * 2017-10-09 2019-11-05 Amazon Technologies, Inc. Divided execution and storage of scripts
CN108196515A (zh) * 2017-12-21 2018-06-22 中国电子信息产业集团有限公司第六研究所 跨平台实时数据处理方法和装置
CN108304238A (zh) * 2017-12-29 2018-07-20 浙江警察学院 高速公路养护排障手持终端的Qt界面实现方法及系统
US10997180B2 (en) 2018-01-31 2021-05-04 Splunk Inc. Dynamic query processor for streaming and batch queries
US10528343B2 (en) * 2018-02-06 2020-01-07 Smartshift Technologies, Inc. Systems and methods for code analysis heat map interfaces
US10990364B2 (en) 2018-06-06 2021-04-27 Ab Initio Technology Llc Updating executable graphs
EP3847547A4 (en) * 2018-09-04 2022-10-12 AVEVA Software, LLC FLOW-BASED COMPOSITION, AND MONITORING SERVER SYSTEM AND METHOD
CN109445789B (zh) * 2018-10-24 2021-11-09 上海金大师网络科技有限公司 带独立渲染层的复合控件生成方法、系统及介质
US10936585B1 (en) 2018-10-31 2021-03-02 Splunk Inc. Unified data processing across streaming and indexed data sets
CN109213005A (zh) * 2018-11-21 2019-01-15 成都四方伟业软件股份有限公司 一种仿真控制方法及装置
US11126411B2 (en) * 2018-12-13 2021-09-21 Sap Se Dashboard user interface for data driven applications
US11340877B2 (en) * 2018-12-19 2022-05-24 Network Native, Inc. System and method for holistic application development and deployment in a distributed heterogeneous computing environment
US11099790B2 (en) * 2019-01-10 2021-08-24 Samsung Electronics Co., Ltd. Parallel key value based multithread machine learning leveraging KV-SSDS
CN109947546B (zh) * 2019-03-13 2021-08-20 北京乐我无限科技有限责任公司 一种任务执行方法、装置、电子设备及存储介质
US10965536B2 (en) 2019-03-30 2021-03-30 Intel Corporation Methods and apparatus to insert buffers in a dataflow graph
US11029927B2 (en) * 2019-03-30 2021-06-08 Intel Corporation Methods and apparatus to detect and annotate backedges in a dataflow graph
US11238048B1 (en) 2019-07-16 2022-02-01 Splunk Inc. Guided creation interface for streaming data processing pipelines
US11526791B2 (en) 2019-11-11 2022-12-13 International Business Machines Corporation Methods and systems for diverse instance generation in artificial intelligence planning
US11144313B2 (en) 2020-02-14 2021-10-12 International Business Machines Corporation Merging changes from upstream code to a branch
US11614923B2 (en) * 2020-04-30 2023-03-28 Splunk Inc. Dual textual/graphical programming interfaces for streaming data processing pipelines
US11366648B2 (en) * 2020-05-28 2022-06-21 Red Hat, Inc. Compiling monoglot function compositions into a single entity
US11276470B2 (en) * 2020-07-17 2022-03-15 Micron Technology, Inc. Bitline driver isolation from page buffer circuitry in memory device
CN111930365B (zh) * 2020-09-18 2021-02-26 季华实验室 基于Qt的应用程序快速开发框架、开发方法及运行方法
US11636116B2 (en) 2021-01-29 2023-04-25 Splunk Inc. User interface for customizing data streams
CN113010168B (zh) * 2021-02-26 2022-07-26 中国科学院软件研究所 一种基于场景树的用户界面生成方法
US11687487B1 (en) 2021-03-11 2023-06-27 Splunk Inc. Text files updates to an active processing pipeline
US11663219B1 (en) 2021-04-23 2023-05-30 Splunk Inc. Determining a set of parameter values for a processing pipeline
CN113254025B (zh) * 2021-06-28 2021-09-28 中南大学湘雅医院 基于原语状态机的关键字特征集合编译方法、装置及设备
US11949761B2 (en) * 2021-07-29 2024-04-02 Oracle International Corporation Techniques for distributed interface component generation
US11989592B1 (en) 2021-07-30 2024-05-21 Splunk Inc. Workload coordinator for providing state credentials to processing tasks of a data processing pipeline

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450535A (en) * 1993-09-24 1995-09-12 At&T Corp. Graphs employing clusters
CA2165893C (en) * 1995-12-21 2001-03-13 Richard Denison Mcdonald Visual application partitioning for creating distributed object oriented applications
US5966072A (en) 1996-07-02 1999-10-12 Ab Initio Software Corporation Executing computations expressed as graphs
US6784903B2 (en) * 1997-08-18 2004-08-31 National Instruments Corporation System and method for configuring an instrument to perform measurement functions utilizing conversion of graphical programs into hardware implementations
DE19837871C2 (de) 1998-08-20 2000-06-08 Manfred Broy Verfahren zum automatischen Erzeugen eines Programms
JP2001154998A (ja) * 1999-11-25 2001-06-08 Hitachi Ltd 並列化解析指示方法と並列化汎用連成解析装置
CZ300160B6 (cs) 2000-03-31 2009-02-25 Sanochemia Pharmazeutika Aktiengesellschaft Deriváty galanthaminu, zpusob výroby techto derivátu, lécivo, které tyto deriváty obsahuje, použitítechto derivátu pro výrobu léciva, zpusob výroby tohoto léciva a zpusob separace (+)- a (-)-izomeruuvedených derivátu
US7162534B2 (en) 2001-07-10 2007-01-09 Fisher-Rosemount Systems, Inc. Transactional data communications for process control systems
WO2005001687A2 (en) 2003-06-25 2005-01-06 Ab Initio Software Corporation Computer-aided parallelizing of computation graphs
US7849075B2 (en) * 2003-09-15 2010-12-07 Ab Initio Technology Llc Joint field profiling
US7487076B2 (en) * 2003-10-31 2009-02-03 The Mathworks, Inc. Simplified data signal support for diagramming environment languages
US7840949B2 (en) * 2003-11-03 2010-11-23 Ramal Acquisition Corp. System and method for data transformation using dataflow graphs
US8875039B2 (en) * 2003-11-18 2014-10-28 The Mathworks, Inc. Propagation of characteristics in a graphical model environment
JP4165888B2 (ja) * 2004-01-30 2008-10-15 キヤノン株式会社 レイアウト制御方法、レイアウト制御装置及びレイアウト制御プログラム
US7530052B2 (en) * 2004-05-14 2009-05-05 National Instruments Corporation Creating and executing a graphical program with first model of computation that includes a structure supporting second model of computation
US7506304B2 (en) * 2004-05-14 2009-03-17 National Instruments Corporation Graphical data flow programming environment with first model of computation that includes a structure supporting second model of computation
US8620629B1 (en) * 2004-09-20 2013-12-31 The Mathworks, Inc. Identification and simulation of multiple subgraphs in multi-domain graphical modeling environment
US7974825B2 (en) * 2004-09-20 2011-07-05 The Mathworks, Inc. Generation of code from a graphical model
US7509244B1 (en) * 2004-12-22 2009-03-24 The Mathworks, Inc. Distributed model compilation
US7551567B2 (en) * 2005-01-05 2009-06-23 Cisco Technology, Inc. Interpreting an application message at a network element using sampling and heuristics
US7703027B2 (en) 2005-01-13 2010-04-20 National Instruments Corporation Merging graphical programs
US8510329B2 (en) * 2005-05-25 2013-08-13 Experian Marketing Solutions, Inc. Distributed and interactive database architecture for parallel and asynchronous data processing of complex data and for real-time query processing
US8756044B2 (en) * 2005-05-31 2014-06-17 The Mathworks, Inc. Graphical partitioning for parallel execution of executable block diagram models
US7769982B2 (en) * 2005-06-22 2010-08-03 Arm Limited Data processing apparatus and method for accelerating execution of subgraphs
US20070240069A1 (en) * 2006-04-11 2007-10-11 Invensys Systems, Inc. Appearance objects for configuring and graphically displaying programmed/configured process control
US20070240080A1 (en) * 2006-04-11 2007-10-11 Invensys Systems, Inc. Strategy editor for process control supporting drag and drop connections to declarations
US7729894B1 (en) * 2006-05-12 2010-06-01 The Mathworks, Inc. Test postcondition items for automated analysis and test generation
US7870556B2 (en) * 2006-05-16 2011-01-11 Ab Initio Technology Llc Managing computing resources in graph-based computations
JP2007328730A (ja) * 2006-06-09 2007-12-20 Toshiba Corp プロセスマッピング支援システム、方法およびプログラム
JP5894724B2 (ja) 2006-08-10 2016-03-30 アビニシオ テクノロジー エルエルシー グラフ型計算の分散サービス
US7882462B2 (en) * 2006-09-11 2011-02-01 The Mathworks, Inc. Hardware definition language generation for frame-based processing
US7774189B2 (en) * 2006-12-01 2010-08-10 International Business Machines Corporation System and method for simulating data flow using dataflow computing system
US9021417B2 (en) * 2007-07-06 2015-04-28 International Business Machines Corporation Generating a subset model from a model
US8359586B1 (en) * 2007-08-20 2013-01-22 The Mathworks, Inc. Code generation
EP2212777A1 (en) * 2007-10-16 2010-08-04 The Mathworks, Inc. Mode-switched variable signal attributes in block diagrams
US8667381B1 (en) * 2008-03-21 2014-03-04 The Mathworks, Inc. Block diagram change history
US8819585B2 (en) * 2008-10-27 2014-08-26 Microsoft Corporation Child window surfacing and management
JP4629768B2 (ja) * 2008-12-03 2011-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 並列化処理方法、システム、及びプログラム
US8756562B2 (en) * 2008-12-11 2014-06-17 The Mathworks, Inc. Subgraph execution control in a graphical modeling environment
US8528001B2 (en) 2008-12-15 2013-09-03 Oracle America, Inc. Controlling and dynamically varying automatic parallelization
KR101730513B1 (ko) * 2009-02-13 2017-04-26 아브 이니티오 테크놀로지 엘엘시 태스크 실행 관리
US8510709B2 (en) 2009-06-01 2013-08-13 National Instruments Corporation Graphical indicator which specifies parallelization of iterative program code in a graphical data flow program
US8448155B2 (en) 2009-06-01 2013-05-21 National Instruments Corporation Automatically creating parallel iterative program code in a graphical data flow program
US8478967B2 (en) 2009-06-01 2013-07-02 National Instruments Corporation Automatically creating parallel iterative program code in a data flow program
US20110055744A1 (en) 2009-08-28 2011-03-03 Ryan Christopher N Visual Linking of Elements to Model Attributes
US8667329B2 (en) * 2009-09-25 2014-03-04 Ab Initio Technology Llc Processing transactions in graph-based applications
US8694947B1 (en) * 2009-12-09 2014-04-08 The Mathworks, Inc. Resource sharing workflows within executable graphical models
US9003360B1 (en) * 2009-12-10 2015-04-07 The Mathworks, Inc. Configuring attributes using configuration subgraphs
JP6084037B2 (ja) * 2009-12-14 2017-02-22 アビニシオ テクノロジー エルエルシー ユーザ・インターフェース要素の指定
JP5454284B2 (ja) 2010-03-26 2014-03-26 セイコーエプソン株式会社 インクジェット記録方法
US8555265B2 (en) * 2010-05-04 2013-10-08 Google Inc. Parallel processing of data
CN103069383B (zh) * 2010-06-02 2016-09-28 艾伦智能科技公司 具有图形用户界面的装置及开发多媒体计算机应用程序的方法
EP2585949B1 (en) 2010-06-22 2015-03-25 Ab Initio Technology LLC Processing related datasets
US8566837B2 (en) 2010-07-16 2013-10-22 International Business Machines Corportion Dynamic run time allocation of distributed jobs with application specific metrics
US8726228B2 (en) 2010-07-30 2014-05-13 National Instruments Corporation Developing programs in a graphical specification and constraint language
US10740117B2 (en) * 2010-10-19 2020-08-11 Apple Inc. Grouping windows into clusters in one or more workspaces in a user interface
KR101911793B1 (ko) * 2010-10-25 2018-10-25 아브 이니티오 테크놀로지 엘엘시 컴퓨터 프로그램을 나타내는 데이터플로우 그래프 내의 데이터세트 객체의 관리
US9436441B1 (en) * 2010-12-08 2016-09-06 The Mathworks, Inc. Systems and methods for hardware resource sharing
US9563411B2 (en) * 2011-01-07 2017-02-07 Ab Initio Technology Llc Flow analysis instrumentation
US9335977B2 (en) * 2011-07-28 2016-05-10 National Instruments Corporation Optimization of a data flow program based on access pattern information
CN102270137B (zh) * 2011-08-10 2014-01-01 清华大学 一种获取体系结构描述语言的方法和一种建模工具
US8732359B2 (en) * 2011-12-07 2014-05-20 The Mathworks, Inc. Data sharing in high-fidelity simulation and real-time multi-core execution
JP6021342B2 (ja) * 2012-02-09 2016-11-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 並列化方法、システム、及びプログラム
US9754357B2 (en) * 2012-03-23 2017-09-05 Panasonic Intellectual Property Corporation Of America Image processing device, stereoscoopic device, integrated circuit, and program for determining depth of object in real space generating histogram from image obtained by filming real space and performing smoothing of histogram
JP2013225251A (ja) * 2012-04-23 2013-10-31 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
US8806464B2 (en) 2012-04-26 2014-08-12 Hewlett-Packard Development Company, L.P. Process flow optimized directed graph traversal
US9304746B2 (en) * 2012-06-07 2016-04-05 Carmel-Haifa University Economic Corporation Ltd. Creating a user model using component based approach
US20130339977A1 (en) 2012-06-19 2013-12-19 Jack B. Dennis Managing task load in a multiprocessing environment
US9182957B2 (en) * 2012-07-10 2015-11-10 Loring Craymer Method and system for automated improvement of parallelism in program compilation
US9058324B2 (en) * 2012-09-28 2015-06-16 Intel Corporation Predictive precaching of data based on context
US20150293994A1 (en) 2012-11-06 2015-10-15 Hewlett-Packard Development Company, L.P. Enhanced graph traversal
JP6469084B2 (ja) 2013-04-23 2019-02-13 アビニシオ テクノロジー エルエルシー コンピューティングシステムによって実行されるタスクの制御
US9348560B2 (en) 2013-06-04 2016-05-24 Qualcomm Incorporated Efficient execution of graph-based programs
US9933918B2 (en) * 2014-09-02 2018-04-03 Ab Initio Technology Llc Specifying control and data connections in graph-based programs
AU2015312006B2 (en) * 2014-09-02 2020-03-19 Ab Initio Technology Llc Managing invocation of tasks
EP3189418B1 (en) 2014-09-02 2022-02-23 AB Initio Technology LLC Visually specifying subsets of components in graph-based programs through user interactions
SG11201701584SA (en) 2014-09-02 2017-03-30 Ab Initio Technology Llc Compiling graph-based program specifications
CA2959169C (en) * 2014-09-02 2021-03-09 Ab Initio Technology Llc Executing graph-based program specifications
US10423733B1 (en) * 2015-12-03 2019-09-24 The Mathworks, Inc. Systems and methods for sharing resources having different data types

Also Published As

Publication number Publication date
CN106687921A (zh) 2017-05-17
CA2959528C (en) 2023-03-07
US20160062736A1 (en) 2016-03-03
JP2017168119A (ja) 2017-09-21
KR102375347B1 (ko) 2022-03-16
SG11201701662XA (en) 2017-04-27
CN112363712A (zh) 2021-02-12
US20190354348A1 (en) 2019-11-21
WO2016036824A1 (en) 2016-03-10
CA3003822C (en) 2023-08-08
JP6479966B2 (ja) 2019-03-06
AU2015312010A1 (en) 2017-04-06
JP2017529608A (ja) 2017-10-05
EP3189418A1 (en) 2017-07-12
AU2019204395A1 (en) 2019-07-11
EP3189418B1 (en) 2022-02-23
HK1243799A1 (zh) 2018-07-20
AU2015312010B2 (en) 2019-10-03
DE112015003587T5 (de) 2017-05-11
CA2959528A1 (en) 2016-03-10
AU2019204395B2 (en) 2021-08-19
WO2016036824A4 (en) 2016-04-28
CN107145344A (zh) 2017-09-08
US10175951B2 (en) 2019-01-08
US10896025B2 (en) 2021-01-19
AU2017202028A1 (en) 2017-04-20
KR20170042801A (ko) 2017-04-19
CN106687921B (zh) 2021-02-02
SG11201701667WA (en) 2017-04-27
CA3003822A1 (en) 2016-03-10
CN107145344B (zh) 2020-12-04
KR102361154B1 (ko) 2022-02-09
KR20170046783A (ko) 2017-05-02
CN112363712B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
JP6479885B2 (ja) ユーザインタラクションを通じたグラフに基づくプログラム内の構成要素のサブセットの視覚的な規定
JP6908682B2 (ja) グラフに基づくプログラムの仕様の実行
JP6467497B2 (ja) 特定のデータポートの接続の特定に基づいてグラフの構成要素の自動化されたクラスタリングによるグラフに基づくプログラムの仕様のコンパイル
US11144283B2 (en) Visual program specification and compilation of graph-based computation
JP6626497B2 (ja) タスクの呼び出しの管理
JP6467500B2 (ja) グラフに基づくプログラムの仕様内の構成要素の関連するタスクを制御するための、それらの構成要素の実行状態の管理
JP6778193B2 (ja) データ処理タスクの制御

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190206

R150 Certificate of patent or registration of utility model

Ref document number: 6479885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250