JPH07271738A

JPH07271738A - ソフトウエア・アーキテクチャを用いた高度並列コンピュータ・システムの制御方式

Info

Publication number: JPH07271738A
Application number: JP7041126A
Authority: JP
Inventors: Jiyaganasan Suretsushiyu; ジャガナサンスレッシュ; Efu Fuirubin Jieemusu; エフ．フィルビンジェームス
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-03-31
Filing date: 1995-02-28
Publication date: 1995-10-20
Anticipated expiration: 2014-01-20
Also published as: JP2848262B2; US5692193A

Abstract

(57)【要約】【目的】いくつかの抽象体の層を備えた、高度並列コ
ンピュータ・システムを制御するソフトウエア・アーキ
テクチャを用いた制御方式の提供。【構成】抽象物理的マシン１０（第１層）は抽象物理
的プロセッサの組を含んでおり、マイクロカーネルと考
えることができる。第２層は仮想マシン２と仮想プロセ
ッサ１６とを含んでいる。仮想マシンは仮想アドレス空
間と、仮想トポロジーで接続された仮想プロセッサの組
とを備えている。仮想マシンは抽象物理的マシンにマッ
ピングされ、各仮想プロセッサは抽象物理的プロセッサ
にマッピングされている。第３層は、スレッド１８を定
義している。スレッドは、仮想プロセッサ上でランする
ライトウエイトのプロセスである。望ましくは、抽象物
理的マシン、抽象物理的プロセッサ、仮想マシン、仮想
プロセッサ、スレッド・グループ、ならびにスレッドは
すべてファーアストクラスのオブジェクトである。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、高度に並列化したコン
ピュータ・システムを制御するためのコンピュータ・ソ
フトウエア・アーキテクチャを用いた高度並列コンピュ
ータ・システムの制御方式に関し、特に、現代のプログ
ラミング言語に対して、非常に効率的なサブストレート
として役立つよう設計したコンピュータ・ソフトウエア
・アーキテクチャを用いた高度並列コンピュータ・シス
テムの制御方式に関するものである。

【０００２】このコンピュータ・ソフトウエア・アーキ
テクチャを用いた制御方式は、制御の問題をポリシーの
問題から分離したオペレーティング・システムにもとづ
いている。この分離はシステムの２つの異なる抽象体レ
ベルで行っている。すなわち抽象物理的プロセッサと仮
想プロセッサとにおいてである。これら抽象体のそれぞ
れは２つの構成要素に分れている。１つは、抽象体の制
御部分を実現する“コントローラ”であり、もう１つは
コントローラに対してポリシーを決定する“ポリシー・
マネージャ”である。制御をポリシーから分離すること
によって、機能的に同一のシステムに対する異なる振舞
の定義を、抽象体のポリシー・マネージャ部分を変更す
るのみで行うことが可能となる。

【０００３】具体的には、このソフトウエア・アーキテ
クチャを用いた制御方式は、制御のライトウエイト・ス
レッドと仮想プロセッサとをファーストクラスのオブジ
ェクトとしてサポートする。並行（コンカレンシー）マ
ネジメントは、ファーストクラスのプロシージャおよび
ファーストクラスのコンティニュエーションによって実
現する。それによって、ユーザが基本的なランタイム・
システムに関する知識を持っていなくても、アプリケー
ションのランタイムの振舞を最適化することが可能とな
る。

【０００４】さらに具体的には、本発明は、非同期並行
構造の構築と、基本的制御メカニズムとしてコンティニ
ュエーションを用いてスレッド・コントローラの実現
と、大規模並行計算の組織化と、並列計算のための強固
なプログラミング環境との設計に関するものである。

【０００５】

【従来の技術】並列計算に対する興味が高まり、その結
果、並行性を表現するために高レベルのプログラムとデ
ータの構造を明確に定義する並列プログラミング言語が
多数、生み出された。非数値的アプリケーション領域を
ターゲットにする並列言語は典型的に、動的なライトウ
エイト・プロセスの生成、高レベル同期基本命令、分散
データ構造、ならびにスペキュラティブな並行性を実現
する並行構造をサポートする（効率は異なっている）。
これらの並列言語は事実上すべて、２つの部分言語から
成ると考えられる。２つの部分言語とは、すなわち、プ
ロセスの集まりのアクティビティを管理し同期化する調
整言語と、与えられたプロセスに限定されるデータ・オ
ブジェクトを扱う計算言語とである。

【０００６】伝統的に、オペレーティング・システムに
はいくつかのクラスがある。例えば、リアルタイム、イ
ンタラクティブ（会話型）、バッチなどである。これら
３つのクラスのオペレーティング・システムはユーザに
対して異なるインターフェースを提供するので、プログ
ラムをあるクラスのオペレーティング・システム（Ｏ
Ｓ）から他のクラスのオペレーティング・システムに移
動するのは困難であった。さらに、各クラスのオペレー
ティング・システムが決定するスケジューリングは異な
っているので、１つのオペレーティング・システムのた
めのプログラム（例えばリアルタイム・アプリケーショ
ン）を他のオペレーティング・システム（例えば会話型
開発システム）でデバッグすることは難しく、またアプ
リケーションがターゲット・システム上で正確かつ効率
的にランすることに関して自信を持つことは困難であ
る。

【０００７】そして、これらのクラスのシステムではそ
れぞれ異なるスケジューリング方式を用いているので状
況はさらに複雑である。例えば、ある種のリアルタイム
・システムでは、複数のプロセスに対してスケジューリ
ングの順序は固定しているのに対して、別のシステムで
は優先規律を用いたり、ランニング・クオンタムを用
い、さらに他のシステムでは、それらを組み合せてい
る。会話型オペレーティング・システムあるいはバッチ
・オペレーティング・システムはスケジューリングに関
してかなりの数の選択肢を有している。

【０００８】制御をポリシーから分離することによっ
て、種々のクラスのオペレーティング・システムに対し
て容易にカスタマイズできるオペレーティング・システ
ムを構築できる。本発明では、ポリシー・マネージャを
実現するモジュールは典型的にはシステムのサイズに比
べて非常に小さい。一般にコードのライン数は１００未
満である。従って、ポリシーの振舞が異なるシステムを
新たに構築する場合、通常はコードの小部分を書くのみ
でよい。また、ポリシー・マネージャは良く定義された
インターフェースを提供するので、ポリシーの振舞を変
更した場合、システム全体を試験する必要はなく、新し
いポリシー・マネージャだけを試験すればよい。

【０００９】Ｈｙｄｒａ（参考文献：“ＨＹＤＲＡ／
Ｃ．ｍｍｐｉ：ＡｎＥｘｐｅｒｉｍｅｎｔａｌＣｏ
ｍｐｕｔｅｒＳｙｓｔｅｍ”，ＷｉｌｌｉａｍＷ
ｕｌｆ，ＲｏｙＬｅｘｉａ，及びＳａｍｕｅｌＨａ
ｒｂｉｓｏｎ著，ＭｃＧｒａｗ−Ｈｉｌｌ，１９９１）
は、制御とポリシーとの分離を意図して設計された最初
のオペレーティング・システムである。しかし、Ｈｙｄ
ｒａはポリシーのカスタマイズをカーネルのレベルでし
か認めていない。本発明ではさらに進めて、ポリシーの
決定を、それらが特定のプログラムに関連するものであ
る場合、カスタマイズできるようにする。従って、エデ
ィタやウインドウ・マネージャなどの会話型プログラム
は、流体力学のシミュレーションや有限要素法の計算な
ど、計算を主体とするプログラムとは非常に異なったポ
リシーを持つことができる。また、Ｈｙｄｒａにおける
制御とポリシーとの分離はコストのかかるものとなって
いる。それは、カーネルとポリシー・マネージャとの間
に複数のコンテクスト・スイッチを必要とするからであ
る。本発明では、ポリシー・マネージャは一般に適当な
アドレス空間に直接リンクしており、コンテクストの切
り換えは不要である。従って本発明のポリシー・マネー
ジャは少なくとも従来のオペレーティング・システムに
おけるポリシー・マネジメント（カスタマイズできな
い）と同程度に効率的であり、そして通常は従来以上に
効率が良い。

【００１０】高レベルの並列言語を実現する１つの方法
は、専用の（ユーザ・レベル）仮想マシンを構築するこ
とである。仮想マシンは基本的に、調整部分言語に見ら
れる高レベルの並行プリミティブを実現するサブストレ
ートとして機能する。調整言語Ｌが並行プリミティブＰ
をサポートする場合、Ｌの仮想マシン（Ｌ_P）の役割
は、Ｐの実現に関連したことをすべて扱うことである。
そのためにはマシンが、プロセスのスケジューリング、
記憶、管理、同期化、その他を管理することがしばしば
必要となる。しかし、Ｌ_PはＰを効率良く実現するよう
にのみ調整されているので、非常に異なった並行プリミ
ティブを実現することは多くの場合適当でない。従っ
て、並行プリミティブＰ′によってＬの方言を構築する
ためには通常、仮想マシンを新たに構築するか、あるい
はＰを用いてＰ′の意味規制を表現する必要がある。こ
れら２つのアプローチには明らかに欠点がある。すなわ
ち、第１のアプローチでは複雑な仮想マシンを新たに構
築するため、コスト高である。一方、第２のアプローチ
は、Ｐの意味規制が高レベルであり、またＬ_Pの機能が
限定されているので、不十分である。

【００１１】言語の実現において、並行性を実現するた
めに専用の仮想マシンを構築する代りに、低レベルのオ
ペレーティング・システムの機能を用いることができ
る。プロセスの生成およびスケジューリングは、ＯＳが
管理する、制御のスレッド（ヘビーウエイトあるいはラ
イトウエイト）によって実現する。そして同期化は、低
レベルの、ＯＳが管理する構造体を用いて扱う。このよ
うにして実現したものは一般に、専用の実行時システム
の周辺に構築したシステムより、ポータブルであり、ま
た拡張性が高い。ただし、カーネル（低レベル）はすべ
て、アプリケーションとオペレーティング・システムと
の間の保護境界を横断する必要があるので、効率は犠牲
になる。さらに、汎用のＯＳ機能は通常、対象の並行オ
ペレータの意味規制に対して不感であるため、それらは
コンパイル時間あるいは実行時間の点で最適化をほとん
ど、あるいはまったく行わない。

【００１２】

【発明が解決しようとする課題】高度並列マルチプロセ
ッサ／マルチコンピュータ・システムを制御するため
の、現代のプログラミング言語に対する非常に効率の良
いサブストレートとして役立つコンピュータのオペレー
ティング・システム・アーキテクチャを用いた高度並列
コンピュータ・システムの制御方式が得られる。更
に、本発明によれば、カスタマイズ可能な仮想マシンに
もとづく非同期の計算のためのソフトウエア・アーキテ
クチャを用いた高度並列コンピュータ・システムの制御
方式が得られる。

【００１３】また、本発明によれば、仮想プロセッサ上
でファーストクラスのオブジェクトとしてライトウエイ
ト・スレッドをサポートするソフトウエア・アーキテク
チャを用いた高度並列コンピュータ・システムの制御方
式が得られる。

【００１４】更に、本発明によれば、カスタマイズ可能
なポリシー・マネージャを、特にユーザ・レベルに含む
ソフトウエア・アーキテクチャを用いた高度並列コンピ
ュータ・システムの制御方式が得られる。

【００１５】また、本発明によれば、カスタマイズ可能
な仮想トポロジーを含むソフトウエア・アーキテクチャ
を用いた高度並列コンピュータ・システムの制御方式が
得られる。

【００１６】また、本発明によれば、スレッド吸収、遅
延ＴＣＢ割り当て、ならびに記憶装置共有の場所として
のスレッド・グループを含むソフトウエア・アーキテク
チャを用いた高度並列コンピュータ・システムの制御方
式が得られる。

【００１７】更に、本発明によれば、多様な形態のポー
トを含むソフトウエア・アーキテクチャを用いた高度並
列コンピュータ・システムの制御方式が得られる。

【００１８】また、本発明によれば、上述のようなソフ
トウエア・アーキテクチャを用いて制御されるコンピュ
ータ・システムが得られる。

【００１９】

【課題を解決するための手段】本発明によれば、高度並
列コンピュータ・システムを制御するためのソフトウエ
ア・アーキテクチャを用いた高度並列コンピュータ・シ
ステムの制御方式において、一つのマイクロカーネルを
形成する複数の抽象物理的プロセッサを備えた複数の抽
象物理的マシンと；前記複数の抽象物理的プロセッサに
付随し、複数の仮想プロセッサを備えた複数の仮想マシ
ンと；前記複数の仮想プロセッサ上でランする複数のス
レッドを備えた複数のスレッド・グループとを備え、前
記複数の仮想プロセッサおよび前記複数のスレッドはフ
ァーストクラスのオブジェクトであることを特徴とする
ソフトウエア・アーキテクチャを用いた高度並列コンピ
ュータ・システムの制御方式が得られる。

【００２０】更に本発明によれば、各々が仮想プロセッ
サ・コントローラと仮想プロセッサ・ポリシー・マネー
ジャとを有し、物理的トポロジーにおいて接続された複
数の抽象物理的プロセッサと；各々が、仮想アドレス空
間と複数の仮想プロセッサとを有する複数の仮想マシン
と；を備えたコンピュータ・システムであって、前記複
数の仮想マシンの各々の前記複数の仮想プロセッサは、
前記仮想プロセッサ・コントローラ及び前記仮想プロセ
ッサ・ポリシー・マネージャに応答して実行し、かつ、
スレッド・コントローラとスレッド・ポリシー・マネー
ジャとを有し、前記複数の仮想プロセッサは仮想トポロ
ジーにおいて接続され、各仮想プロセッサはそれぞれの
抽象物理的プロセッサにマッピングされており、前記コ
ンピュータ・システムは、前記スレッド・コントローラ
と前記スレッド・ポリシー・マネージャとに応答する前
記複数の仮想プロセッサ上でランする複数のスレッド
を、更に、備えていることを特徴とするコンピュータ・
システムが得られる。

【００２１】本発明は、高レベル・プログラミング言語
のコンテクストにおいて広い範囲の並行構造体を表現す
ることを可能とする調整サブストレートの実現に関する
ものである。本発明は汎用調整モデルを定義し、そのモ
デル上で、多数の特殊調整言語を効率良く実現できるよ
うにする。本発明の実施においては、ソフトウエアのス
キーム（Ｓｃｈｅｍｅ）（参考文献：“ＴｈｅＲｅｖ
ｉｓｅｄＲｅｐｏｒｔｏｎｔｈｅＡｌｇｏｒｉ
ｔｈｍｉｃＬａｎｇｕａｇｅＳｃｈｅｍｅ” ＡＣ
ＭＳｉｇｐｌａｎＮｏｔｉｃｅｓ，２１（１２），
１９８６，ＪｏｎａｔｈａｎＲｅｅｓａｎｄＷ
ｉｌｉａｍＣｌｉｎｇｅｒ）を計算の基礎として用い
た。スキームはより高次の、辞書的に見たときの、Ｌｉ
ｓｐの方言である。スキームは望ましい言語ではある
が、当業者にとって明らかなように、上記調整サブスト
レートの設計は、いかなる現代の（高レベルの）プログ
ラミング言語にも取り入れることができよう。

【００２２】本発明のオペレーティング・システムは基
本的に、共有メモリあるいは分離メモリを用いた、ＭＩ
ＭＤ（マルチ・インストラクション−マルチ・データ）
並列コンピュータ上でランするように設計され、またワ
ークステーションのネットワークから成る分散マシン上
でランするように設計されている。本発明のソフトウエ
ア・アーキテクチャでは、分離メモリあるいは分散メモ
リを用いたマシン上で実行する場合には、共有仮想メモ
リ・モデルを用いる。その実現においては、異なる、並
列のパラダイムに対応する多数の異なるアルゴリズムを
用いた。上記並列には結果並列、マスター／スレーブ並
列、ならびに論理的並列が含まれる。いくつかの異なる
並列プログラミング・モデルを、フューチャー・ファー
ストクラスのタプル（組）空間、ならびにエンジンを備
えたオペレーティング・システム上で実現した。

【００２３】本発明の望ましい実施例のフィーチャーで
ある、オペレーティング・システム（ＯＳ）を構成する
スキームの方言（スティング（Ｓｔｉｎｇ）と呼ぶ）
は、非同期、ライトウエイトの並行性を表現するための
調整言語（専用仮想マシンによって実現）を含み、それ
は２つのアプローチの最良点を組み合せている。他の並
列スキームのシステムおよび同種の高レベル言語の並列
方言と異なり、スティングにおける基本的な並行オブジ
ェクト（スレッド、仮想プロセッサ、ならびに物理的プ
ロセッサ）は、ストリームライン化したデータ構造であ
り、複雑な同期化を必要としない。並行性の管理をＯＳ
によるサービスに依存する並列システムと違い、スティ
ングはスキームのオブジェクトおよびプロシージャによ
ってすべての並行管理の問題を実現し、その結果、ユー
ザは、背後のＯＳのサービスに関する知識を持つことな
く、アプリケーションのランタイムの振舞を最適化する
ことが可能となる。スティングは、さまざまな形態の非
同期の並列性を生成し、管理するための基本的な特徴
を、概念的に単一化したフレームワークで、かつ非常に
一般的なフレームワークによってサポートする。結果と
して、高レベル言語の種々の並列方言をその上に構築で
きる効率的なサブストレートを構築できることが分っ
た。スティングは単に、スタンドアロンの、短寿命のプ
ログラムを実現する媒介手段とすることを意図したもの
ではなく、並列計算のための豊かなプログラミング環境
を構築するためのフレームワークを提供することを期待
したものである。従って、このシステムは、スレッド・
プリエンプション、スレッドごとの非同期のガーベッジ
・コレクション、スレッド境界を越えた例外の扱い、な
らびにアプリケーションに依存するスケジューリング・
ポリシーをサポートする。さらに、このシステムは、持
続性の長寿命なオブジェクト、マルチ・アドレス空間、
その他、最新のプログラミング環境に共通する特徴を扱
うために、必要な機能を有している。

【００２４】スティングでは、仮想プロセッサは抽象物
理的プロセッサ上で多重化され、スレッドは仮想プロセ
ッサ上で多重化される。この多重化に関連するポリシー
の決定はすべて、ポリシー・マネージャによって行われ
る。物理的プロセッサ上の仮想プロセッサの多重化に関
連する決定は、仮想プロセッサ・ポリシー・マネージャ
（ＶＰＰＭ）によって行う、仮想プロセッサ上のスレッ
ドの多重化に関する決定はスレッド・ポリシー・マネー
ジャ（ＴＰＭ）によって行われる。

【００２５】ポリシー・マネージャは３つのタイプの決
定を行う。すなわち、オブジェクトが生成あるいは再開
されたとき、プロセッサ（物理的あるいは仮想）に新し
いオブジェクト（ＶＰあるいはスレッド）をいかにマッ
ピングするか、特定のプロセッサにマッピングされた複
数のオブジェクトをランさせる順序、ならびにオブジェ
クトをあるプロセッサから他のプロセッサに、いつ再マ
ッピングあるいは移動するかの３つである。

【００２６】スティングは、スキーム、スモールトーク
（ＳｍａｌｌＴａｌｋ）、ＭＬ、モジューラ３（Ｍｏ
ｄｕｌａ３）、あるいはハスケル（Ｈａｓｋｅｌｌ）な
どの現代のプログラミング言語をサポートするように設
計されたオペレーティング・システムである。スティン
グは、低レベルの直交構築体の基礎を与え、それによっ
て言語の設計者あるいは使用者が、上記言語が必要とす
る種々の構築体を簡単かつ効率的に構築することを可能
とする。

【００２７】現代のプログラミング言語は、従来のコボ
ル、フォートラン、Ｃ、あるいはパスカルなどのプログ
ラミング言語に比べ、より多くを要求する。スティング
は現代のプログラミング言語をサポートするように設計
されてはいるが、従来のプログラミング言語も同様に効
率良くサポートする。現代のプログラミング言語が従来
の言語と異なる点を以下にリストアップする。

【００２８】・並列性：汎用のマルチ・プロセッサはま
すます利用し易くなってきており、その結果、並行プロ
グラミングのための効率的で、かつ表現力に優れたプラ
ットフォームの構築に対して興味が高まっている。高レ
ベルのプログラミング言語に並行性を組み入れるための
努力は大部分が、特殊目的の基本命令を言語に付加する
という点に払われている。

【００２９】・マルチ同期化モデル：並列プログラミン
グあるいは非同期プログラミングにおいて、多くの同期
化プロトコルが用いられている。現代のオペレーティン
グ環境は、できる限りさまざまなプロトコルをサポート
する基本命令を提供するものでなければならない。

【００３０】・レイジー（遅延）評価およびイーガー評
価：現代の多くの言語はレイジー評価あるいはイーガー
評価のいずれか、または両方をサポートしている。オペ
レーティング・システムにとって、レイジーからイーガ
ーまでの完全な評価ストラテジーを用意することは重要
である。

【００３１】・自動記憶管理：これは現代の多数の言語
の基本的な特徴となっている。それは、自動記憶管理に
よってプログラムを一層、表現力に優れたものにでき、
同時にプログラムのエラーを低減し、かつプログラムの
複雑さを緩和できるからである。

【００３２】・トポロジー・マッピング：多くのプログ
ラミング言語ではまだサポートされていないが、プログ
ラムにおける通信オーバーヘッドを低減するように、処
理のプロセッサへのマッピングを制御する能力は、マル
チ・プロセッサ・コンピュータ・システムのサイズが大
きくなり続け、かつトポロジーがより複雑になる以上、
より重要なものとなろう。

【００３３】スティングはこれら種々の要素を効率良く
サポートする。スティングは、現在利用できるものより
一層、一般的でかつより効率的なアーキテクチャ・フレ
ームワークにおいてこれを行う。スティングはまた、高
い表現力および制御能力と、非並列レベルのカスタマイ
ズ能を、プログラムに提供する。

【００３４】スティングは、その設計における４つの特
徴によって、他の並列言語から最もよく区別できる。

【００３５】１．並行抽象体：並行性はスティングでは
制御のライトウエイト・スレッドによって表現される。
スレッドは非厳密な、ファーストクラスのデータ構造で
ある。

【００３６】２．プロセッサ抽象体およびポリシー抽象
体：スレッドは、スケジューリングおよび負荷平衡・プ
ロトコルの抽象体を表す仮想プロセッサ（ＶＰ）上で実
行する。仮想プロセッサの数は、実際に利用できる物理
的プロセッサの数より多くてもかまわない。スレッドの
ように、仮想プロセッサはファーストクラスのオブジェ
クトである。１つのＶＰは１つのスレッド・ポリシー・
マネージャを備え、このポリシー・マネージャはそれが
実行するスレッドのためのスケジューリングと移行方式
を決定する。異なるＶＰは、実際には、性態の低下無し
に、異なるポリシー・マネージャを備えることができ
る。仮想プロセッサは、実際の物理的計算装置である物
理的プロセッサ上で実行する。

【００３７】仮想プロセッサの集まりとアドレス空間と
は組合わさって、１つの仮想マシンを形成する。複数の
仮想マシンが単一の物理的マシン上で実行できる。物理
的マシンは１組の物理的プロセッサから成る。仮想マシ
ンおよび物理的マシンもまた指示可能な、スキームのオ
ブジェクトであり、このオブジェクトとして操作可能で
ある。

【００３８】３．記憶モデル：１つのスレッドはデータ
を、そのスレッドが排他的に管理するスタックおよびヒ
ープに割り当てる。従って、複数のスレッドは、互いに
独立にそれらのプライベート・ステートのガーベッジ・
コレクションを行う。あるスレッドがプライベートのガ
ーベッジ・コレクションを始動する場合、グローバルな
同期化は不要である。データはスレッドを横断して参照
できる。スレッド境界を越えてオブジェクトのガーベッ
ジ・コレクションを行うとき、領域間の参照情報が用い
られる。記憶は世代スキャベンジング・コレクタによっ
て管理される。１つのスレッドによって割り当てられた
長寿命データあるいは持続データは、同じ仮想マシンに
おける他のスレッドもアクセスできる。

【００３９】本発明の設計は記憶のローカリティという
ことに配慮している。例えば、スレッドをランさせるた
めの記憶装置はＶＰにキャッシュされ、そして１つのス
レッドが終了したとき、すぐに再利用できるようリサイ
クルされる。さらに、複数のスレッドは、データの依存
性が保証されるときは常に、同じ実行コンテクストを共
有することができる。

【００４０】４．プログラム・モデル：スティングは、
スレッド間で横断的に扱われるべき例外を許容し、ノン
・ブロッキングＩ／Ｏをサポートし、仮想プロセッサの
スケジューリングのカスタマイズを、仮想プロセッサ上
のスレッドのスケジューリングがカスタマイズ可能であ
るのと同様に、可能とし、そしてマルチ・アドレス空間
および共有持続オブジェクトを実現する内部構造を与え
る。スティングはまた、ファーストクラスの多様な形態
のポートを用いたメッセージの効率の良い受け渡しをサ
ポートする。ポートは、分離メモリ・プラットフォーム
上の共有メモリの実現において、オーバーヘッドを緩和
するのに役立つ。

【００４１】本発明の高度並列コンピュータ・システム
を制御するソフトウエア・アーキテクチャでは、オペレ
ーティング・システム（スティング）、基本言語、なら
びにコンパイラを１つの抽象的マシンに統合する。スタ
ート点はスキームなどの高レベルプログラミング言語で
ある。このプログラミング言語は、スレッド、仮想プロ
セッサ、ならびにポリシー・マネージャを含む効率的な
抽象体によって拡大されている。この優れたオペレーテ
ィング・システムは、データのローカリティにプレミア
ムを付けるという現在のアーキテクチャのトレンドを有
効に利用したメカニズムを含んでいる。

【００４２】その結果、並列計算のための効率の良い調
整構造体を構築するメカニズムが得られた。ライトウエ
イトのスレッドを用いることにより、進歩的なプログラ
ミング環境の基礎が得られる。データのローカリティを
サポートすることによって、効率的な非同期システムが
得られる。

【００４３】このシステムの性能にとって中心的なこと
は仮想トポロジーの概念である。仮想トポロジーは、仮
想プロセッサの集まりにおける関係を定める。ツリー、
グラフ、ハイパーキューブ、ならびにメッシュとして構
成されたプロセッサ・トポロジーはよく知られたその例
である。仮想プロセッサは、スレッドが実行するスケジ
ューリング、マイグレーション、ならびに負荷平衡のポ
リシーを定義する抽象体である。この仮想トポロジー
は、複雑なスレッドとプロセッサのマッピング（物理的
相互接続の低レベルの詳細を抽象する）を定める、単純
で表現力に優れた高レベルのフレームワークを与えるよ
う意図されている。

【００４４】計算によって生成されたスレッドは、仮想
トポロジー内のプロセッサに対して、そのトポロジーに
関連したマッピング機能によってマッピングされる。ユ
ーザはこれらのマッピング機能を定義することができ
る。仮想トポロジーを用いて特定のマルチプロセッサ・
プラットフォーム上でシステムが実現されている場合、
仮想トポロジー内の仮想プロセッサをプラットフォーム
内の物理的プロセッサにマッピングするプロシージャを
定義することが可能である。

【００４５】コードそれ自身は、それが物理的プロセッ
サあるいは物理的プロセッサの相互接続に対する参照を
含んでいない限り、マシンとは独立している。スレッド
・マッピングとローカリティに関するすべてのことは、
プログラムが用いる、仮想トポロジーの仕様と、プログ
ラム実行時のトポロジー内のノードの通過の仕方におい
て抽象される。

【００４６】仮想トポロジーとプロセッサ・マッピング
の利益は、効率性だけでなく、移植性という点にもあ
り、それによって並列アルゴリズムの実現を個別の物理
的トポロジーごとに特殊化する必要がなくなる。スレッ
ドをプロセッサに関連づけるマッピング・アルゴリズム
は、仮想トポロジーの一部として細かく指定されるの
で、プログラマは、スレッドがどのように仮想プロセッ
サに対してマッピングされるべきかを正確に管理でき
る。ある計算において通信が必要となることが分かって
いる場合、これらのスレッドを特定の仮想プロセッサに
明確に割り当てられるという能力によって、暗黙的なマ
ッピング・ストラテジーの場合より優れた負荷平衡を行
える。並列アルゴリズムによって定義される制御とデー
タフローのグラフの構造は、種々の形で用いることがで
きる。スレッドの集まりが共通のデータを共有している
場合には、これらのスレッドが実行する仮想プロセッサ
を同一の物理的プロセッサにマッピングするトポロジー
を構築することが可能である。仮想プロセッサは物理的
プロセッサ上で、スレッドが仮想プロセッサ上で多重化
されるのと同じようにして多重化される。あるスレッド
の集まりが重要な相互の通信を必要とする場合には、そ
れらのスレッドを、仮想トポロジーにおいて互いに接近
したプロセッサにマッピングするトポロジーを構築する
ことができる。スレッドＴ₁が、他のスレッドＴ₂が発
生する値に対してデータ依存性を有している場合、Ｔ₁
とＴ₂とは同一の仮想プロセッサにマッピングすること
が合理的である。プロセッサがほとんどビジー状態とな
るグラニュラリティの細かいプログラムでは、同一また
は近いプロセッサ上のデータ依存スレッドに対してスケ
ジューリングを行える能力によって、スレッドのグラニ
ュラリティを改善する機会が与えられる。最後に、適応
ツリー・アルゴリズムなど、ある種のアルゴリズムは計
算の進行につれて展開するというプロセス構造を有して
いる。これらのアルゴリズムは、仮想プロセッサの動的
生成が可能なトポロジー上において最も良く実行され
る。

【００４７】このソフトウエア・アーキテクチャの他の
優れた面として、効率的な汎用のマルチ・スレッドのオ
ペレーティング・システムおよびプログラム環境の実現
における、コンティニュエーションおよびファーストク
ラスのプロシージャの役割がある。コンティニュエーシ
ョンは、状態遷移の操作、例外の扱い、ならびに重要な
記憶の最適化を実現するために用いられる。コンティニ
ュエーションは、プログラム・ポイントの抽象体であ
る。コンティニュエーションは、１つの引数を有するプ
ロシージャによって表され、このプロシージャは、引数
が示すプログラム・ポイントから実行すべき残りの計算
を定義している。

【００４８】スティングの仮想アドレス空間は１組の領
域によって構成されている。領域は、一時的にあるいは
空間的に強いローカリティを示すデータを組織化するた
めに用いられる。スティングはさまざまな領域をサポー
トする。すなわち、スレッド制御ブロック、スタック、
スレッド・プライベート・ヒープ、スレッド共有ヒープ
などである。データは、それらの意図された仕様および
寿命にもとづいて領域に割り当てられ、従って異なる領
域は、それらに関連した異なるガーベッジ・コレクタを
備えることになる。

【００４９】例外と割り込みは常に、スレッド・レベル
のコンテクスト・スイッチの場合のように、あるスレッ
ドの実行コンテクストにおいて扱われる。例外ハンドラ
ーは通常のスキームのプロシージャによって実現され、
そして例外のディスパッチは基本的にコンティニュエー
ションの操作を含んでいる。

【００５０】スティングが、制御のライトウエイト・ス
レッドの生成および管理が可能なプログラミング・シス
テムである限り、いくつかの特性を、他の高レベル言語
のために開発されたスレッド・パッケージ・システムと
共有している。これらのシステムもスレッドを明らかな
データタイプと見ており、また、さまざまな程度にプリ
エンプションをサポートし、そしてある限定されたケー
スでは、プログラマが特別のスケジュール管理を指定す
ることを可能としている。これらのシステムでは、スレ
ッドの抽象体が調整部分言語を定めている。

【００５１】しかし、スティングはいくつかの重要な点
でこれらのシステムと異なっている。第１に、スティン
グが使用するスケジューリングとマイグレーションのプ
ロトコルは完全にカスタマイズできる。異なるアプリケ
ーションは、スレッド・マネージャあるいは仮想プロセ
ッサの抽象体を変更することなく、異なるスケジューラ
をランさせることができる。このようなカスタマイズは
仮想マシン自身の組織化に適用することができる。第２
に、スティングによるデータのローカリティのサポー
ト、記憶の最適化、ならびにスレッドの吸収によるプロ
セスの抑圧は他のシステムでは行えない。さらに、スレ
ッドのオペレーションはすべてスレッドの仮想マシン内
で直接実現される。スレッドのオペレーションの実行の
ために実施すべき、低レベルのカーネルに対するコンテ
クスト・スイッチは無い。スティングは、長寿命のアプ
リケーション、持続性のオブジェクト、ならびにマルチ
・アドレス空間をサポートすることを意図した抽象的マ
シンにおいて構築される。スレッド・パッケージは、そ
れらが（定義によって）完全なプログラム環境を定めて
いないので、これらの機能はまったく提供しない。

【００５２】スティングはシステム・プログラミング言
語として設計されているので、低レベルの平行抽象体を
提供する。アプリケーション・ライブラリは直接スレッ
ド・オブジェクトを生成でき、そしてそれら自身のスケ
ジューリングおよびスレッド・マイグレーション・スト
ラテジーを定めることができる。高レベルの平行構築体
はスレッドを用いて実現できるが、しかし効率が保証さ
れるなら、システムはユーザがスレッドのオペレーショ
ンを上述のように直接利用することを禁止するものでは
ない。具体的には、同一のアプリケーションは、同一の
実行時の環境において、異なる意味規制と異なる効率
で、平行抽象体を定めることができる。

【００５３】ある点でスティングは、他の進歩的マルチ
・スレッド・オペレーティング・システムに似ている。
例えば、スティングは、コール・バック、ユーザが管理
するオーバー・インタラプト、ならびにユーザ・レベル
の操作としてのローカル・アドレス空間の管理に伴うノ
ンブロッキングＩ／Ｏコールをサポートしている。ステ
ィングはユーザ・レベルの事柄とカーネル・レベルの事
柄とを分けている。物理的プロセッサは（特権を与えら
れた）システムのオペレーション、および複数の仮想マ
シンに跨るオペレーションを扱う。仮想プロセッサはユ
ーザ・レベルのスレッドおよびローカル・アドレス空間
の機能をすべて実現する。しかし、スティングはスキー
ムの拡張方言であるため、典型的なオペレーティング・
システム環境では提供されない高レベルのプログラミン
グ言語の機能性および表現性を提供する。

【００５４】スティングは、非同期プログラミング基本
命令を構築し、そして新しい並列プログラミングのパラ
ダイムを実験するためのプラットフォームである。さら
に、その設計では、異なる平行性の手法を競走的に評価
することが可能である。スキームは、意味規制が良く定
義され、全体的に簡素であり、そして効率的であるた
め、このような実験を行うための特に豊かな環境を提供
する。しかし、スティングの設計はそれ自身言語に依存
しない。従って、いかなる高レベルプログラミング言語
にも極めて容易に組み込むことができよう。

【００５５】スティングは単に、興味深いと思われる各
平行パラダイムおよび各平行プリミティブに対してフッ
クを与えるものではない。そうではなく、広範囲の並列
プログラミング構造体に共通の基本構造および機能に焦
点を当てている。従って、ブロッキングの実現は論理的
な計算をサポートするために容易に用いられる。スレッ
ドの実行を抑止するために用いられるスレッド吸収の最
適化は、フューチャーとタプル空間の同期化を実現する
のに非常に適しており、そして最後に、カスタマイズ可
能なポリシー・マネージャは、他のさまざまなパラダイ
ムに対して公正で効率的なスケジューラを構築すること
を可能とする。

【００５６】

【実施例】次に本発明の実施例について図面を参照して
説明する。

【００５７】図１に本発明の一実施例による高度並列コ
ンピュータ・システムを制御するためのソフトウエア・
アーキテクチャを用いた高度並列コンピュータ・システ
ムの制御方式のブロック図を示す。

【００５８】抽象物理的マシン（ＰＭ）１０は、物理的
トポロジー（ＰＴ）１１で互いに接続された抽象物理的
プロセッサ（ＰＰ）１２により構成されている。この抽
象物理的マシンは１組の仮想マシン（ＶＭ）１４を実行
させるために用いられる。それに対して、各仮想マシン
は、仮想トポロジー（ＶＴ）２０，２０′で接続された
１つ以上の仮想プロセッサ（ＶＰ）１６を備えている。
スレッド（Ｔ）１８は、同じ仮想マシン内の１つ以上の
仮想プロセッサ上で実行する。さらに、特定のスレッド
は、同じ仮想マシン１４内の異なる仮想プロセッサ間で
移行（マイグレート）できる。スレッド・ポリシー・マ
ネージャ（ＴＰＭ）１９（図２，図３に示す）はスレッ
ドのスケジューリングおよびスレッドの負荷平衡・ポリ
シーを制御する。異なる要素間の関係および各要素の詳
細を以下に説明する。

【００５９】ソフトウエア・アーキテクチャ（オペレー
ティング・システム・アーキテクチャという場合もあ
る）は、いくつかの抽象体の層の配列と考えることがで
きる（図２）。第１の層は抽象物理的マシン１０を含
み、このマシンは抽象物理的プロセッサ１２の組を含ん
でいる。この層は、現状のオペレーティング・システム
においてマイクロ・カーネルと呼ばれているものに対応
している。次の層は仮想マシン１４および仮想プロセッ
サ１６を含んでいる。仮想マシンは、仮想アドレス空間
と、仮想トポロジーで接続された仮想プロセッサの組と
を備えている。仮想マシンは抽象物理的マシンにマッピ
ングされ、その際、各仮想プロセッサは抽象物理的プロ
セッサにマッピングされる。抽象体の第３の層はスレッ
ド１８である。これらのスレッドは、仮想プロセッサ上
でランするライトウエイトのプロセスである。

【００６０】仮想トポロジーは、例えば、メッシュ・ト
ポロジーで物理的に接続された物理的プロセッサにマッ
ピングされる仮想プロセッサのツリーである。仮想トポ
ロジーによって、プログラマは、実施すべきアルゴリズ
ムに適した（仮想）トポロジーでプログラムを表現する
ことが可能となる。スティングは、仮想トポロジーか
ら、ターゲット・マシンの実際の物理的トポロジーへの
効率的なマッピングを提供する。また、仮想トポロジー
によって、並列プログラムを、異なる物理的トポロジー
間で容易に移すことが可能となる。

【００６１】スティングの調整部分言語の主な構成要素
は、ライトウエイト・スレッドと仮想プロセッサであ
る。スレッドは、ローカル記憶装置（すなわち、レジス
タ、スタック、ならびにヒープ）、コード、ならびに関
連する状態情報（すなわち、ステータス、優先順位、プ
リエンプション・ビット、ロックなど）を含む単純なデ
ータ構造である。それらは独立した制御の場所を定義し
ている。このシステムは、スレッドが含むコードに対し
て制約を課さない。有効なスキームの表現はすべて、独
立したプロセスとして扱われる。

【００６２】図２，図３に示すように、各仮想プロセッ
サ（ＶＰ）１６はスレッド・コントローラ（ＴＣ）１７
を含み、このコントローラはスレッド上およびスレッド
・ポリシー・マネージャ（ＴＰＭ）１９上で状態遷移機
能を実施する。そして、スレッド・ポリシー・マネージ
ャはスレッドのスケジューリングと負荷平衡／移行ポリ
シーの両方を実施する。同じ仮想マシン内で各ＶＰはス
レッド・コントローラを共有するが、異なるＶＰは異な
るスレッド・ポリシー・マネージャを持つことができ
る。

【００６３】仮想プロセッサ１６は物理的プロセッサ１
２上に、スレッド１８が仮想プロセッサ上に多重化され
ているのと同じようにして多重化されている。各物理的
プロセッサは、マルチプロセッサ環境における計算エン
ジンに対応している。各物理的プロセッサＰＰに関連し
ているのは仮想プロセッサ・コントローラ１３および仮
想プロセッサ・ポリシー・マネージャ１５である。仮想
プロセッサ・コントローラは、プリエンプションによっ
て、あるいは明示的なリクエストによって、仮想プロセ
ッサ間でコンテクスト・スイッチを行う。仮想プロセッ
サ・ポリシー・マネージャは、物理的プロセッサＰＰ上
で実行する仮想プロセッサ１６に対するスケジューリン
グの決定を扱う。例えば、仮想プロセッサは、その上で
スレッドが実行していない場合、そして他のＶＰからス
レッドを移転できない場合には、物理的プロセッサの制
御を放棄することができる。物理的プロセッサは、シス
テム内のいかなる仮想マシンの仮想プロセッサをもラン
させることができる。

【００６４】仮想マシンは単一のアドレス空間２４を含
み、関連する仮想プロセッサはそれを排他的にアクセス
することができる。仮想マシンは、グローバル記憶プー
ル２６内のグローバルな情報（例えば、ライブラリ、フ
ァイル・システムなど）を共有することができ、そして
グローバル共有オブジェクト２８（すなわち、グローバ
ル・アドレス空間にあるオブジェクト）をそれらのロー
カル・アドレス空間にマッピングする。仮想マシンはま
た、アドレス空間内のすべての活性オブジェクトをトレ
ースするために用いられる活性オブジェクト・グラフ
（すなわち、ルート環境３０）のルートを含んでいる。

【００６５】すべてのスティング・オブジェクト（スレ
ッド、ＶＰ、仮想マシンを含む）は持続性メモリ内に存
在する。このメモリは個別領域の集合として構成されて
いる。オブジェクトは、世代コレクタを用いて領域内に
集められたガーベッジである。１つのオブジェクトはそ
のアドレス空間内の他のオブジェクトをすべて参照する
ことができる。最初、オブジェクトは短寿命のスレッド
・ローカル領域に存在する。ガーベッジ・コレクション
から生き残ったオブジェクトは世代階層において上位に
移る。この機能はユーザにとっては全く明らかである。

【００６６】ファーストクラスのオブジェクトは、プロ
シージャに対して引数として渡したり、結果としてプロ
シージャから戻したり、あるいはデータ構造内に記憶で
きるオブジェクトのことである。本発明の抽象物理的マ
シンの望ましい実施例では、抽象物理的プロセッサ、仮
想マシン、仮想プロセッサ、スレッドのグループ、なら
びにスレッドはすべてファーストクラスのオブジェクト
である。他の実施例では、スレッドおよび仮想プロセッ
サのみがファーストクラスのオブジェクトである。

【００６７】スティング・コンパイラはオービット（Ｏ
ｒｂｉｔ）の改良バージョンである。オービットについ
てはＤ．Ｋｒａｎｚらの論文に記述されている（参考文
献：“Ｏｒｂｉｔ：ＡｎＯｐｔｉｍｉｚｉｎｇＣｏ
ｍｐｉｌｅｒｆｏｒＳｃｈｅｍｅ”，ｉｎＡＣＭ
ＳＩＧＰＬＡＮＮｏｔｉｃｅｓ，２１（７）：２１
９−２３３，Ｊｕｌｙ１９８６）。コンパイラにより
見えるターゲット・マシンは、現在ランしているスレッ
ド・オブジェクトに対する参照を保持する専用のスレッ
ド・レジスタを含んでいる。さらに、レジスタをコンテ
クスト・スイッチ上で退避、復元したり、あるいはスレ
ッドの記憶領域（すなわち、スタックおよびヒープ）を
割り当てたりするといった時間的な制約の厳しいオペレ
ーションは、基本オペレーションとして用意される。連
続するスキーム・プログラムは変更無しにコンパイル
し、実行される。スティングでは、フューチャー、分散
データ構造、ならびにスペキュラティブ平行オペレーシ
ョンも実現している。スキーム・プログラムは、これら
のパラダイムのいずれかによってサポートされた平行オ
ペレーションによって自由に拡大させることができる。

【００６８】スレッドは、スティングにおけるファース
トクラスのオブジェクトである。従って、それらは引数
としてプロシージャに渡すことができ、また結果として
戻し、さらにデータ構造内に格納することができる。ス
レッドは、スレッドを生成したオブジェクトより長く生
き残ることができる。スレッドの状態は、サンク（ｔｈ
ｕｎｋ）、すなわちスレッドが実行されるとき発動され
るヌラリー（ｎｕｌｌａｒｙ）プロシージャを含んでい
る。アプリケーションの値は終了時にスレッド内に格納
される。例えば、（ｆｏｒｋ−ｔｈｒｅａｄ（＋ｙ（＊
×ｚ）））という表現を評価することによって、サンク
（ｌａｍｂｄａ（）（＋ｙ（＊×ｚ）））を発動する制
御のライトウエイト・スレッドが生成される。このサン
クの評価環境は、ｆｏｒｋ−ｔｈｒｅａｄという表現の
辞書的環境である。

【００６９】スレッドは状態情報をその状態の一部とし
て記録する（図４および図５参照）。スレッドは、遅延
３６、スケジュール３８、評価４０、吸収４２、あるい
は確定４４のいずれかの状態をとる。遅延されたスレッ
ドは、スレッドの値が明確に要求されない限り、ランさ
れることはない。スケジュールされたスレッドは、いず
れかのＶＰが知っているスレッドであるが、まだ記憶資
源は割り当てられていない。評価を行っているスレッド
はランし始めたスレッドである。スレッドは、そのサン
クのアプリケーションが結果を出すまでこの状態に留ま
る。上記結果が出たときスレッドの状態が確定する。吸
収されたスレッドは、評価中のスレッドを特別化したも
のであり、重要であるため、以下にさらに詳しく説明す
る。

【００７０】状態情報および評価すべきコードに加え
て、１つのスレッドはまた、（１）それが完了するのを
待っている他のスレッドに対する参照情報と、（２）サ
ンクの動的な、そして例外の環境と、スレッドの親、兄
弟、ならびに子を含む系統情報とを含んでいる。

【００７１】各スレッドも、流体（すなわち動的）結合
および例外の扱いを実現するために用いる動的な、そし
て例外の環境を有している。系統情報は、デバッグとプ
ロファイリングのツールとして有用であり、それによっ
てアプリケーションはプロセス・ツリーの動的な展開を
モニタすることが可能となる。

【００７２】スレッドの実現においては、言語における
他の基本オペレーションを変更する必要はない。スレッ
ドの同期化意味規則は、例えばＭｕｌｔｉＬｉｓｐの
“ｔｏｕｃｈ”や、Ｌｉｎｄａのタプル空間や、ＣＭＬ
の”ｓｙｎｃ”によって利用できる同期化機能をより一
般的な（低レベルではあっても）形にしたものである。

【００７３】アプリケーションは状態を完全に制御し、
その状態のもとで、ブロックされたスレッドを復活させ
ることができる。しかし、データフロー（すなわちフュ
ーチャー・タッチ）、非決定論的な選択、ならびに制約
にもとづく同期化または障壁同期化に対する明示的なシ
ステム・サポートがある。

【００７４】ユーザは、スレッド・コントローラ（Ｔ
Ｃ）（スレッドのある状態において同期状態の遷移を実
現する）が定義する１組のプロシージャ（以下にリスト
アップする）によってスレッドを操作する。ＴＣは、レ
ジスタの退避および復元という２つの基本オペレーショ
ンを除いて、全体をスキームによって書くことが望まし
い。スレッド・コントローラは記憶領域を割り当てな
い。従って、ＴＣのコールはガーベッジ・コレクション
をトリガーしない。これらのオペレーションに加えて、
スレッドは、プリエンプションのため、コントローラに
入ることができる。スレッド・プロシージャを以下に示
す。

【００７５】（ｆｏｒｋ−ｔｈｒｅａｄｅｘｐｒｖ
ｐ）は、ｅｘｐｒを評価するためにスレッドを生成し、
それをｖｐ上でランするようにスケジュールする。

【００７６】（ｄｅａｌｙ−ｔｈｒｅａｄｅｘｐｒ）
は、（スレッド値によって）要求されたときｅｘｐｒを
評価する遅延されたスレッドを生成する。

【００７７】（ｔｈｒｅａｄ−ｒｕｎｔｈｒｅａｄ
ｖｐ）は、遅延された、ブロックされた、あるいは保留
されたｔｈｒｅａｄをｖｐのレディー待ち行列に挿入す
る。

【００７８】（ｔｈｒｅａｄ−ｗａｉｔｔｈｒｅａ
ｄ）は、このオペレーションを実行しているスレッド
に、ｔｈｒｅａｄの状態が確定するまでブロックさせ
る。

【００７９】（ｔｈｒｅａｄ−ｂｌｏｃｋｔｈｒｅａ
ｄ．ｂｌｏｃｋｅｒ）は、ｔｈｒｅａｄにブロック
することをリクエストする。ｂｌｏｃｋｅｒは、スレッ
ドがブロックするときの条件である。

【００８０】（ｔｈｒｅａｄ−ｓｕｓｐｅｎｄｔｈｒ
ｅａｄ．ｑｕａｎｔｕｍ）は、スレッドに実行の保
留をリクエストする。ｑｕａｎｔｕｍ引数が与えられた
場合には、指定された期間が経過したときスレッドは再
開される。そうでない場合には、スレッドは、ｔｈｒｅ
ａｄ−ｒｕｎを用いて明示的に再開されるまで、無期限
に保留される。

【００８１】（ｔｈｒｅａｄ−ｔｅｒｍｉｎａｔｅｔ
ｈｒｅａｄ．ｖａｌｕｅｓ）は、ｔｈｒｅａｄに対
してｖａｌｕｅｓをその結果として終了することをリク
エストする。（ｙｉｅｌｄ−ｐｒｏｃｅｓｓｏｒ）は、
現在のスレッドに、そのＶＰの制御をやめるようリクエ
ストする。このスレッドは適切なレディー待ち行列に挿
入される。

【００８２】（ｃｕｒｒｅｎｔ−ｔｈｒｅａｄ）は、こ
のオペレーションを実行しているスレッドを復帰する。

【００８３】（ｃｕｒｒｅｎｔ−ｖｉｒｔｕａｌ−ｐｒ
ｏｃｅｓｓｏｒ）は、このオペレーションが、その上で
評価されている仮想プロセッサを復帰される。

【００８４】ユーザがいかにスレッドをプログラムでき
るかを説明するため、図６のプログラムについて考え
る。このプログラムは、簡単な素数発見手段の実現を定
義したものである。この定義ではいかなる特定の並行パ
ラダイムも参照していない。このような問題はそのｏｐ
引数によって抽象される。

【００８５】この素数発見手段の実現は、ストリーム・
アクセスにおけるブロッキング・オペレーション（ｈ
ｄ）、およびスレッドの最後に付加するアトミック・オ
ペレーション（ａｔｔａｃｈ）を与える、ユーザが定義
した同期スレッド抽象体に依存している。

【００８６】非同期の振舞の程度が異なる、素数発見手
段の種々の処理を定義できる。例えば、（ｌｅｔ（（ｆｉｌｔｅｒ−ｌｉｓｔ（ｌｉｓｔ）））（ｓｉｅｖｅ（ｌａｍｂｄａ（ｔｈｕｎｋ）（ｓｅｔｆｉｌｔｅｒ−ｌｉｓｔ（ｃｏｎｓ（ｄｅｌａｙ−ｔｈｒｅａｄ（ｔｈｕｎｋ））（ｆｉｌｔｅｒ−ｌｉｓｔ））））））では、フィルタがレイジーに生成される。フィルタは、
一度要求されると、反復的に入力ストリームから要素を
除去し、そして潜在的な素数を出力ストリーム上に発生
する。ラウンド・ロビン・スレッド配置規律を用いるＶ
Ｐ上でスケジュールした新しいフィルタを始動させるた
め、次のように書くことができる。

【００８７】（ｔｈｒｅａｄ−ｒｕｎ（ｃａｒｆｉｌｅｒ−ｌｉｓｔ）（ｍｏｄ（１＋（ｖｍ．ｖｐ−ｖｅｃｔｏｒ（ｖｐ．ｖｍ（ｃｕｒｒｅｎｔ−ｖｉｒｔｕａｌ−ｐｒｏｃｅｓｓｏｒ））））ｎ））（ｖｐ．ｖｍ（ｃｕｒｒｅｎｔ−ｖｉｒｔｕａｌ−ｐｒ
ｏｃｅｓｓｏｒ））という表現は、現在のＶＰを一部と
する仮想マシンを定義している。仮想マシンのパブリッ
ク・ステートは、その仮想プロセッサを収容するベクト
ルを含んでいる。

【００８８】シーブに対する上記コールを少し書き直す
ことにより、よりレイジーな素数発見手段の実現を表現
できる。

【００８９】（ｌｅｔ（（ｆｉｌｔｅｒ−ｌｉｓｔ（ｌｉｓｔ）））（ｓｉｅｖｅ（ｌａｍｂｄａｓ（ｔｈｕｎｋ）（ｓｅｔｆｉｌｔｅｒ−ｌｉｓｔ（ｃｏｎｓ（ｃｒｅａｔｅ−ｔｈｒｅａｄ（ｂｅｇｉｎ（ｍａｐｔｈｒｅａｄ−ｒｕｎｆｉｌｔｅｒｌｉｓｔ）（ｔｈｕｎｋ）））ｆｉｌｔｅｒ−ｌｉｓｔ））（ｍａｐｔｈｒｅａｄ−ｂｌｏｃｋｆｉｌｔｅｒ −ｌｉｓｔ））ｎ））この定義では、潜在的な素数ｐに遭遇したフィルタは、
レイジーなスレッド・オブジェクトＬを生成し、チェー
ン内の他のすべてのフィルタにブロックすることをリク
エストする。Ｌの値が要求されたときは、フィルタはチ
ェーン内のすべての要素をアンロックし、そしてその入
力スレッドにおけるｐのすべての倍数を取り除く。この
コールでは要求にもとづいて、シーブの拡張および入力
の消費を抑制する。

【００９０】このシーブは次のように、よりイーガーな
バージョンに変えることもできる。

【００９１】（ｓｉｅｖｅ（ｌａｍｂｄａ（ｔｈｕｎｋ）（ｆｏｒｋ−ｔｈｒｅａｄ−（ｔｈｕｎｋ）（ｃｕｒｒｅｎｔ−ｖｐ）））ｎ）このアプリケーションを評価することによって、素数の
すべての倍数を取り除くための新たなスレッドがスケジ
ュールされる。このスレッドは、この操作を実行する仮
想プロセッサ上でスケジュールされる。このコールで
は、素数が新たに見つかるごとに、評価するスレッドが
発生される。

【００９２】スティングでは、スレッドのオペレーショ
ンを通常のプロシージャとして扱い、スレッドのオペレ
ーションで参照されるオブジェクトを、スキームのどれ
か他のオブジェクトとして操作する。共通のストリーム
によって結ばれた２つのフィルタが終了した場合、上記
ストリームが占有する記憶領域は再利用することができ
る。スティングは、スレッドのアクセスに対して先験的
な同期化プロトコルを課さない。アプリケーション・プ
ログラムが、スレッドの調整を整える抽象体を構築する
ようにしている。

【００９３】フィルタによって生成されたスレッドは２
つの方法の中の１つによって終了される。シーブに対す
るトップレベルのコールは、それがこれらのスレッドに
対して明示的なハンドルを有するように、構成すること
ができる。レイジーなシーブを生成するために用いるフ
ィルタ・リスト・データ構造はその一例である。次に、（ｍａｐｔｈｒｅａｄ−ｔｅｒｍｉｎａｔｅｆｉｌ
ｔｅｒｌｉｓｔ）を評価して、シーブ内のすべてのスレッドを終了させる
ことができる。あるいは、アプリケーションはスレッド
のグループを用いて、これらのスレッドを集合的に管理
することができる。

【００９４】＜スレッド・グループ＞スティングは、関
連するスレッドの集まりに対する制御を獲得する手段と
してスレッド・グループを与える。１つのスレッド・グ
ループは、ｆｏｒｋ−ｔｈｒｅａｄ−ｇｒｏｕｐに対す
るコールによって生成される。このオペレーションは、
新しいグループおよび新しいスレッドを生成し、新しい
スレッドは新しいグループのルート・スレッドになる。
子スレッドは、新しいグループを明示的に生成しない限
り、同一のグループを、その親として共有する。１つの
グループは１つの共有ヒープを含み、そのメンバーはす
べてこのヒープをアクセスできる。スレッド・グループ
が次のコールによって終了したき、（ｔｈｒｅａｄ−ｇｒｏｕｐ−ｔｅｒｍｉｎａｔｅｇ
ｒｏｕｐ）グループ内の生きているスレッドはすべて終了され、そ
の共有ヒープはガーベッジ・コレクトされる。

【００９５】スレッド・グループはまた、そのメンバー
に対して、それをすべてひとまとめにして適用できるデ
バッグ・オペレーションおよびスレッド・オペレーショ
ンも含んでいる。スレッド・グループは、デバッグおよ
びモニタのためのオペレーション（例えば、与えられた
グループ内のすべてのスレッドのリストアップ、すべて
のグループのリストアップ、プロファイリング、系統の
報告など）と共に、通常のスレッドのオペレーション
（例えば、終了、保留など）と同種のオペレーションを
提供する。従って、スレッドＴが終了したとき、ユーザ
はＴのすべての子（終了されるべきＴのグループの一部
として定義されている）に対して次のようにリクエスト
できる。

【００９６】（ｔｈｒｅａｄ−ｇｒｏｕｐ−ｔｅｒｍｉ
ｎａｔｅ（ｔｈｒｅａｄ．ｇｒｏｕｐＴ））スレッド・グループは、階層的メモリ・アーキテクチャ
において、共有を制御するための重要なツールである。
グループのメンバーが共有するオブジェクトは、グルー
プの共有ヒープ内に含まれているので、これらオブジェ
クトはメモリ内で物理的に互いに近接していることが望
ましく、それによってより良いローカリティが得られ
る。スレッド・グループはまた、スケジューリングの場
として用いることもできる。例えば、スレッド・ポリシ
ー・マネージャは、グループ内のすべてのスレッドがラ
ンすることを許可されない限り、グループ内のスレッド
はいずれもランできないというスケジューリング・ポリ
シーを実現できよう。このスケジューリング方式は“ギ
ャング・スケジューリング”プロトコルと同種のもので
ある。スレッド・グループはデータのローカリティを改
善するために仮想トポロジーと共に用いることができ
る。

【００９７】＜実行コンテクストおよびスレッド制御ブ
ロック＞スレッドが評価を開始したとき、実行コンテク
ストがそれに対して割り当てられる。評価を行っている
スレッドはいずれも、スレッド制御ブロック（ＴＣＢ）
３２（図５）としても知られる実行コンテクストと関連
している。ＴＣＢはコンティニュエーションを一般的に
表したものであり、それ自身のスタック３１とローカル
・ヒープ３３を含んでいる。スタックとヒープはともに
拘束でき、そしてヒープは生成スキャベンジング・コレ
クタを用いてガーベッジ・コレクションされる。記憶オ
ブジェクト以外に、ＴＣＢは関連するロックと、スレッ
ドが最後にコンテクスト・スイッチを実行したとき残っ
ている、生きたレジスタすべての値と、スレッドのサブ
ステート（例えば、初期化、レディー、評価、ブロッ
ク、保留などの状態）と、スレッドが最後に実行された
ＶＰと、スレッドの優先順位と、タイム・クオンタムと
を含んでいる。

【００９８】スレッド・ステートおよびスレッド・サブ
ステートの遷移図を図４に示す。ＴＣＢの状態は、評価
を行っているスレッド上で許可されたオペレーションを
反映している。評価中のスレッドＴがＴＣＢＴ_TCBを
有しているなら、Ｔ_TCBのステート・フィールドは以下
の中のいずれか１つを示す。

【００９９】初期化４６：Ｔ_TCBに関連するスタックと
ヒープが初期化されているが、どのコードもまだ実行さ
れていない。

【０１００】レディー４８：Ｔは利用できるいかなるＶ
Ｐ上でも実行できるが、いずれのＶＰ上でも現在、まだ
実行されていない。

【０１０１】ラン５０：ＴはあるＶＰ上で現在実行され
ている。

【０１０２】ブロック５２：Ｔは、あるスレッド上で、
またはある条件のもとで現在ブロックされている。

【０１０３】保留５４：Ｔは、基本的に無期限に保留さ
れている。

【０１０４】終了５６：Ｔは実行を終了し、残りの状態
を一掃している。

【０１０５】スレッドとは異なり、ＴＣＢはファースト
クラスの、ユーザに見えるオブジェクトではない。スレ
ッド・コントローラとスレッド・ポリシー・マネージャ
のみがそれらをアクセスできる。新しいスレッドがラン
のレディー状態にあるとき、ＴＣＢはそれに割り当てら
れる。スレッドが確定状態となったとき、スレッド・コ
ントローラはそのＴＣＢを、後に生成されるスレッドの
ために、利用できる。ＴＣＢはユーザが維持するデータ
構造内に逃げ込むことはない。ＴＣＢはシステム・レベ
ルのプロシージャによって排他的に操作される。

【０１０６】スティングの実現はスレッドに対する記憶
領域の割り当てを必要となるまで延期する。他のスレッ
ド・パッケージでは、スレッドを生成する動作は、単に
フォークされるべきスレッドに対する環境を設定するだ
けでなく、記憶領域の割り当ておよび初期化も含んでい
る。このアプローチでは２つの重要な点で効率の低下を
招く。第１に、グラニュラリティの細かい並列のもとで
は、スレッド・コントローラは、実際にスレッドをラン
させることより、それらを生成し、初期化することに、
より長い時間を消費する。第２に、スタックおよびプロ
セス制御ブロックはスレッドが生成されると直ちに割り
当てられるので、スレッド間のコンテクスト・スイッチ
はしばしば、キャッシュとページのローカリティの利点
を活用できない。さらに、ＴＣＢの割り当てが遅延され
ない場合には、システムに必要な全メモリ容量は大幅に
増加することになる。

【０１０７】スティングのスレッド制御ブロックは、仮
想プロセッサによって管理されるリサイクル可能な資源
である。ＴＣＢは、スレッドが評価を開始したときのみ
スレッドに対して割り当てられる。この割り当てのスト
ラテジーはデータのローカリティを改善するように設計
されている。ＴＣＢは、ＶＰＶ上でランするべきスレ
ッドＴに対して４つの方法の中の１つによって割り当て
ることができる。

【０１０８】１．現在Ｖ上で実行中のスレッドが終了し
た場合には、そのコンテクストは直ちに再割り当てのた
めに利用できる。そのＴＣＢは割り当てのための最も良
い候補である。なぜなら、このＴＣＢは、そのＶＰに対
して最も高いローカリティを有しているからである。こ
のＶＰに関連する物理的キャッシュおよびメモリは、最
も最近ＶＰ上でランしたスレッドの実行コンテクストを
含んでいる可能性が最も高い。

【０１０９】２．現在実行しているスレッドが終了して
いない場合には、Ｔに対するＴＣＢは、Ｖ上に維持され
ているＴＣＢのＬＩＦＯプールから割り当てられる。こ
こでも再び、上記実行コンテクストが、最も高いローカ
リティを有するものとなっている。

【０１１０】３．Ｖのプールが空の場合には、新しいＴ
ＣＢが、これもＬＩＦＯの順序で構成されたグローバル
・プールから割り当てられる。ローカルＶＰプールはい
ずれも、それが保持できるＴＣＢの数のしきい値τを維
持している。プールがオーバーフローした場合には、そ
のＶＰは、ローカル・プール内のＴＣＢの半分をグロー
バル・プールに移動する。ローカル・プールがオーバー
フローしていない場合には、τ／２ＴＣＢがグローバル
・プールからＶＰのローカル・プールに移動される。グ
ローバル・プールは２つの役割を果たす。すなわち、
（１）ＴＣＢの割り当ておよび再使用におけるプログラ
ムの振舞の影響を最小化すること、および（２）すべて
の仮想プロセッサに対するＴＣＢの公正な分配を保証す
ることである。

【０１１１】４．最後に、ＴＣＢをグローバル・プール
あるいはローカル・プールのいずれにおいても利用でき
ない場合には、τ／２ＴＣＢの新しい組が動的に生成さ
れ、Ｔに割り当てられる。新しいＴＣＢは、グローバル
・プールおよびＶＰのローカル・プールがともに空の場
合にのみ生成されるので、スティング・プログラムの評
価の際に実際に生成されるＴＣＢの数は、すべてのＶＰ
によって集合的に決められる。

【０１１２】＜仮想プロセッサ＞仮想プロセッサ（拡張
して、仮想マシン）は、スティングではファーストクラ
スのオブジェクトである。ファーストクラスというＶＰ
の状態には、スティングを高レベルのスレッド・システ
ムおよび他の非同期並列言語のいずれからも区別する重
要な意味がある。第１に、明示的にプロセスを特定の仮
想プロセッサにマッピングすることによって並列計算を
組織できる。例えば、ＶＰＶ上で実行している他のス
レッドＱと密接に通信することが知られているスレッド
Ｐは、トポロジー的にＶに近いＶＰ上で実行すべきであ
る。スティングでは、ＶＰは直接的に示されるので、こ
のような考慮を実現することができる。例えばシストリ
ック・スタイルのプログラムは、現在のＶＰ（例えば、
現在ＶＰ、左ＶＰ、右ＶＰ、上ＶＰなど）から離れて自
己相対アドレシングを用いて表現することができる。こ
のシステムは、多数の共通トポロジー（例えば、ハイパ
ーキューブ、メッシュ、シストリック・アレーなど）に
対していくつかのデフォールト・アドレシング・モード
を提供する。さらに、ＶＰは特定の物理的プロセッサに
マッピングできるので、ファーストクラスのデータ値と
して仮想プロセッサを操作できるという能力により、ス
ティングのプログラムは、種々の特定のプロセッサ・ト
ポロジーで定義される異なる並列アルゴリズムを極めて
柔軟に表現することができる。

【０１１３】図７のプログラムを参照して説明する。こ
のプログラムは、物理的プロセッサの２次元メッシュ上
で多重化された仮想プロセッサの３次元メッシュを生成
するものである。このアレーは、物理的マシンの高さお
よび幅と同じ高さおよび幅を有している。深さ方向の各
要素を同じ仮想プロセッサにマッピングすることによっ
て、３次元アレーを２次元アレーに縮小する。従って、
生成された仮想プロセッサの数は、物理的プロセッサの
数と同じである。同じ深さのプロセッサにマッピングさ
れたスレッドはすべて同じＶＰ上で実行する。プロシー
ジャｇｅｔ−ｐｍ−ｈｅｉｇｈｔとｇｅｔ−ｐｍ−ｗｉ
ｄｔｈは物理的マシン・インターフェースによって与え
られる。仮想プロセッサの絶対アドレシングは、ｃｒｅ
ａｔｅ−３Ｄ−ｍｅｓｈだけ戻したアレーへの単純なア
レー参照である。

【０１１４】ｃｒｅａｔｅ−ｖｐプロシージャは、ｇｅ
ｔ−ｐｐが戻した物理的プロセッサ上で走る新しいＶＰ
を生成する。トポロジーが生成されると、現在のＶＰか
ら離れて自己相対アドレシング・プロシージャを構築す
ることが可能である。例えば、トポロジーにおいて１デ
ィメンジョン上方に移動する上ＶＰプロシージャを定義
することができる。

【０１１５】（ｄｅｆｉｎｅ（ｕｐ−ＶＰ）（ｌｅｔ（（ａｄｄｒｅｓｓ（ｖｐ−ａｄｄｒｅｓｓ（ｃｕｒｒｅｎｔｌｙ−ｖｉｒｔｕａｌ−ｐｒｏｃｅｓｓｏｒ））））（ａｒｒａｙ−ｒｅｆ３Ｄ−ｍｅｓｈ（ｖｅｃｔｏｒ−ｒｅｆａｄｄｒｅｓｓ０））））１．適当な物理的プロセッサにマッピングされる仮想プ
ロセッサの組を生成する。

【０１１６】２．仮想トポロジーにおけるアドレスを各
ＶＰに関連づける。

【０１１７】３．仮想トポロジーにおいて絶対アドレシ
ングのために用いるデータ構造に仮想プロセッサを格納
し、その構造上に適切なアクセスルーチンを定義する。

【０１１８】４．自己相対アドレシングのプロシージャ
を定義する。

【０１１９】＜スレッド・コントローラ＞スレッド・コ
ントローラは、仮想プロセッサによる、物理的プロセッ
サやスレッドなど、他のシステム要素とのやり取りを扱
う。スレッド・コントローラの最も重要な機能は、スレ
ッドの状態遷移を扱うことである。スレッドが、その状
態遷移によって、現在その上でランしている仮想プロセ
ッサを生じた場合には、必ずスレッド・コントローラは
スレッド・ポリシー・マネージャをコールし、次にどの
スレッドをランするべきかを決める。

【０１２０】スティングのスレッド・コントローラを実
現する場合、いくつかの興味深い問題が明らかになる。
中心的な状態遷移プロシージャは図９および図１０に示
す。これらのプロシージャで見られるＴＣＢでの操作
は、ユーザ・アプリケーションでは利用できない。スレ
ッド・コントローラはスティングの中に書かれているの
で、ＴＣプロシージャに対するすべての同期コールは通
常のプロシージャ・コールとして扱われる。従って、現
在のスレッドでランしているプロシージャが用いる活性
レジスタは、コントローラへのエントリのとき、スレッ
ドのＴＣＢ内に自動的に退避される。

【０１２１】プロシージャｓｔａｒｔ−ｃｏｎｔｅｘｔ
−ｓｗｉｔｃｈ（図８）は、その引数として、現在のス
レッド（すなわち、ＴＣに入ったスレッド）に対する望
ましい次の状態をとる。プリエンプションは最初にディ
スエーブルされる。次に、新しいスレッド（あるいはＴ
ＣＢ）が、プロシージャｔｐｍ−ｇｅｔ−ｎｅｘｔ−ｔ
ｈｒｅａｄによって復帰される。

【０１２２】ランできるスレッドが無い場合には、プロ
シージャは偽（ｆａｌｓｅ）を戻す。この場合、現在の
スレッドは再度ランされるか（レディー状態にあるとし
て）、あるいはプロシージャｔｐｍ−ｖｐ−ｉｄｌｅ
が、現在のＶＰを引数としてコールされる。プロシージ
ャｔｍｐ−ｖｐ−ｉｄｌｅは種々の簿記操作を行うこと
ができ、また、その物理的プロセッサに他のＶＰに切り
換えるようリクエストすることができる。

【０１２３】次のオブジェクトが現在のＴＣＢである場
合、動作は一切行われず、現在のスレッドが直ちに再開
される。戻されたオブジェクトが他のＴＣＢの場合に
は、その状態がランに設定され、ＶＰフィールドは現在
のＶＰに設定される。そして、現在のＴＣＢは（その状
態がデッドの場合）ＴＣＢプール内でリサイクルされる
か、またはそのレジスタが退避され、そして新しいＴＣ
Ｂの状態が、プロセッサ・レジスタに復元される。

【０１２４】戻されたオブジェクトが、実行コンテクス
トを持たないスレッドの場合には、ＴＣＢがそれに対し
て割り当てられる。このＴＣＢは、ｎｅｘｔ−ｓｔａｔ
ｅｎｏフィールドがデッドの場合には現在のＴＣＢとな
る。あるいはＶＰローカル・プールまたはグローバル・
プールから割り当てられるＴＣＢとなる。スレッドは、
基本プロシージャｓｔａｒｔ−ｎｅｗ−ｔｃｂを用いて
実行を開始する。このスレッドは、その実行コンテクス
トとして新しいＴＣＢを用い、プロシージャｓｔａｒｔ
−ｎｅｗ−ｔｈｒｅａｄ（図１０参照）を応用する。

【０１２５】ｆｉｎｉｓｈ−ｃｏｎｔｅｘｔ−ｓｗｉｔ
ｃｈのコード（図９）は、ｓｔａｒｔ−ｃｏｎｔｅｘｔ
−ｓｗｉｔｃｈが復帰させたスレッドによって実行され
る。その目的は、新しいスレッドのＶＰフィールドを設
定するためにスイッチ・アウトされたスレッド（このプ
ロシージャ内で以前にコールされている）が保持するロ
ックを解放し、適切であるなら以前のものをレディー待
ち行列に組み入れ、プリエンプションタイムを再設定す
る。新しいスレッドがＶＰ上に設定された後でのみ以前
のものを待ち行列に組み入れることにより、コントロー
ラは、状態遷移を起させることと、スレッドをＶＰのレ
ディー待ち行列に組み入れることとの間の競合状態を排
除する。プロシージャｔｍｐ−ｅｎｑｕｅｕｅ−ｒｅａ
ｄｙ−ｔｈｒｅａｄとｔｍｐ−ｅｎｑｕｅｕｅ−ｓｕｓ
ｐｅｎｄｅｄ−ｔｈｒｅａｄは、スレッド・ポリシー・
マネージャによって実現される。

【０１２６】ｓｔａｒｔ−ｎｅｗ−ｔｈｒｅａｄのコー
ドを図１０に示す。サンクＥ_tを有するスレッド・オブ
ジェクトは、それに対してＴＣＢが割り当てられると、
評価を開始でき、そしてデフォルト・エラー・ハンドラ
ーおよび適当なクリンアップ・コードと関連するように
なる。Ｅ_tから出るためのスロー（ｓｔａｒｔ−ｎｅｗ
−ｔｈｒｅａｄが設定するキャッチポイント）はスレッ
ド・スタックに適切に巻き戻させ、それによってスレッ
ドが保持するロックなどの資源が適切に解放されるよう
にする。Ｅ_tの評価に続く退出のコードはスレッドのス
タックとヒープをガーベッジ・コレクションし、Ｅ_tが
生成した値をスレッド状態の一部として格納し、この値
を待っているスレッドをすべて目覚めさせ、状態遷移プ
ロシージャに対するテイル・リカーシブ・コールに、ラ
ンすべき新しいスレッドを選択させる。Ｅ_tはダイナミ
ック・ワインド・フォーム内に包まれているので、スレ
ッドが異常終了した場合でも、スレッドの記憶領域がガ
ーベッジ・コレクションされることが保証される。

【０１２７】ガーベッジ・コレクションは、スレッドの
ウエイターが起される前に行われなければならない。そ
れは、スレッド（スレッドのサンクが復帰させたオブジ
ェクトを含む）より長生きであって、ローカル・ヒープ
を含んでいたオブジェクトは他の活性ヒープに移転させ
る必要があるためである。これが行われないと、他のス
レッドが、新たに終了したスレッドの記憶領域に対する
参照を得ることになるからである。確定したスレッドの
記憶領域は他のスレッドに割り当てられるので、これは
明らかにエラーとなる。

【０１２８】＜スレッド・ポリシー・マネージャ＞各仮
想プロセッサはスレッド・ポリシー・マネージャを有し
ている。スレッド・ポリシー・マネージャは、仮想プロ
セッサ上でのスレッドのスケジューリングおよび移行に
関するすべてのポリシーの決定を行う。スレッド・コン
トローラはスレッド・ポリシー・マネージャの依頼者で
あり、ユーザのコードはそれをアクセスできない。スレ
ッド・コントローラは、次のことに関連して決定を行う
必要がある場合には必ずスレッド・ポリシー・マネージ
ャをコールする。すなわち、スレッドの仮想プロセッサ
への初期マッピングと、現在のスレッドがなんらかの理
由で仮想プロセッサを解放したとき、次に仮想プロセッ
サはどのスレッドをランさせるべきかということと、い
つ、どのスレッドを仮想プロセッサに、あるいは仮想プ
ロセッサから移転させるかということである。

【０１２９】すべての仮想プロセッサは同一のスレッド
・コントローラを有しているが、各仮想プロセッサは異
なるポリシー・マネージャを備えることができる。この
ことは、各プロセッサが、必要なスケジューリングがさ
まざまに異なるサブシステムを制御するというリアルタ
イム・アプリケーションにとって特に重要である。

【０１３０】スレッド・ポリシー・マネージャはスレッ
ド・コントローラに対してよく定義されたインターフェ
ースを提供する。スレッド・ポリシー・マネージャが決
定を行うために用いるデータ構造は、スレッド・ポリシ
ー・マネージャにとって完全にプライベートなものとな
っている。それらは特定のスレッド・ポリシー・マネー
ジャに対してローカルとしたり、あるいは種々のスレッ
ド・ポリシー・マネージャが共有するようにでき、ま
た、それらの組み合せとすることもできる。しかし、シ
ステムの他の部分は一切利用できない。従って、スレッ
ド・ポリシー・マネージャは、異なる仮想マシンに対し
て異なる振舞を行うようにカスタマイズすることができ
る。その結果、ユーザは、ランさせるプログラムの種類
に応じてポリシーの決定をカスタマイズすることができ
る。

【０１３１】ＶＰはそれぞれ異なるスレッド・ポリシー
・マネージャを備えることができるので、アプリケーシ
ョンによって生成された異なるグループのスレッドは、
異なるスケジューリング方式の対象とすることができ
る。仮想マシンあるいは仮想プロセッサは異なるスケジ
ューリング・プロトコルあるいは異なるスケジューリン
グ・ポリシーを扱うよう調整することができる。

【０１３２】スティングのスレッド・コントローラは、
スレッドの状態遷移プロシージャを定義するが、先験的
なスケジューリング・ポリシーあるいは先験的な負荷平
衡・ポリシーは定義しない。これらのポリシーはアプリ
ケーションに依存する場合がある。いくつかのデフォル
ト・ポリシーがスティングの全実行時間環境の一部とし
て与えられるが、ユーザは自身のポリシーを自由に書く
ことができる。事実、図３に示すように、各仮想プロセ
ッサ１６はそれ自身のスレッド・ポリシー・マネージャ
（ＴＰＭ）１９を有している。従って、与えられた仮想
マシン内の異なるＶＰは異なるポリシーを実現できる。
ＴＰＭ１９はスレッドのスケジューリング、プロセッサ
／スレッドのマッピング、ならびにスレッドの移行を扱
う。

【０１３３】アプリケーションを個別のスケジューリン
グ・グループに分けられるということは、長寿型の並列
（あるいは会話型）プログラムにとって重要である。Ｉ
／Ｏに関連したプロシージャを実行するスレッドは、計
算に関連したルーチンを実行するスレッドとは異なるス
ケジューリングを必要とする。リアルタイムの制約を持
つアプリケーションは、単純なＦＩＦＯスケジューリン
グ・ポリシーのみを必要とするものとは異なるスケジュ
ーリング・プロトコルを用いて実現されるべきである。

【０１３４】ツリー構造の並列プログラムは、ＬＩＦＯ
にもとづくスケジューラを用いることによって、もっと
も良好に動作しよう。マスタ／スレーブ・アルゴリズム
あるいはワーカー・ファーム・アルゴリズムをランさせ
るアプリケーションは、公正さのためにラウンド・ロビ
ン・プリエンプション・スケジューラを用いることによ
って、より良好に動作しよう。これらのアプリケーショ
ンはすべて、大きいプログラム構造体あるいは大きいプ
ログラム環境の構成要素であるから、これらのアプリケ
ーションを異なるポリシー・マネージャによって評価す
ることで得られる柔軟性は重要である。同一の仮想マシ
ン上で評価するスレッドの集まりを独立に実行する、個
別のアプリケーションは存在し得る。さらに、各個別の
スケジューラは、異なる性能特性を有し、そして異なる
形で実現されたスレッド・ポリシー・マネージャを有す
ることができる。

【０１３５】本発明は、柔軟なフレームワークの提供を
探究するものである。そしてこの柔軟なフレームワーク
は、スレッド・コントローラ自身に対する変更を行うこ
となく、ユーザに対して明らかに異なるスケジューリン
グ方式を組み入れることができるものである。そのた
め、すべてのＴＰＭは、その実現において制約は一切課
されていないが、同一のインターフェースに従わなけれ
ばならない。以下に示すインターフェースは、ランすべ
き新しいスレッドを選択し、評価中のスレッドを待ち行
列に挿入し、スレッドの優先順位を設定し、そしてスレ
ッドを移行させるためのオペレーションを提供する。こ
れらのプロシージャはＴＣが排他的に用いるためのもの
である。一般に、ユーザ・アプリケーションは、スレッ
ド・ポリシー・マネージャとスレッド・コントローラと
のインターフェースを承知している必要はない。

【０１３６】（ｔｐｍ−ｇｅｔ−ｎｅｘｔ−ｔｈｒｅａ
ｄｖｐ）は次にｖｐ上でランすべきレディー状態のス
レッドを戻す。

【０１３７】（ｔｐｍ−ｅｎｑｕｅｕｅ−ｒｅａｄｙ−
ｔｈｒｅａｄｖｐｏｂｊ）は、スレッドあるいはＴ
ＣＢのいずれかであろうｏｂｊをｖｐに関連するＴＰＭ
のレディー待ち行列に挿入する。

【０１３８】（ｔｐｍ−ｐｒｉｏｒｉｔｙｐｒｉｏｒ
ｉｔｙ）および（ｔｍｐ−ｑｕａｎｔｕｍｑｕａｎｔ
ｕｍ）は、それぞれの引数が有効な優先順位か、あるい
は有効なクオンタムかを確認するガードプロシージャで
ある。

【０１３９】（ｔｐｍ−ａｌｌｏｃａｔｅ−ｖｐｔｈ
ｒｅａｄ）はｔｈｒｅａｄをｖｐに割り当てる。ｖｐが
偽の場合には、ｔｈｒｅａｄはＴＰＭによって確定され
る仮想プロセッサに割り当てられる。

【０１４０】（ｔｍｐ−ｖｐ−ｉｄｌｅｖｐ）は、ｖ
ｐ上に評価を行っているスレッドが無い場合、スレッド
・マネージャによってコールされる。このプロシージャ
はスレッドを他の仮想プロセッサから移行させたり、簿
記を行ったり、他のＶＰに対するプロセッサ・スイッチ
自身を持つために物理的プロセッサをコールしたりする
ことができる。

【０１４１】（ｔｐｍ−ｅｎｑｕｅｕｅ−ｓｕｓｐｅｎ
ｄｕｐ−ｔｈｒｅａｄ）は、ｖｐの保留待ち行列上の
ｔｈｒｅａｄを保留する。

【０１４２】ＴＰＭは、評価中のスレッドに対するスケ
ジューリングの順序を決定する以外に、負荷平衡の２つ
の基本的決定を行う。（１）新しく生成されたスレッド
を走らせるべきＶＰを選択する。（２）ＶＰ上のどのス
レッドを移行できるかを決め、他のＶＰからどのスレッ
ドを移行させるかを決める。

【０１４３】最初の決定は、初期の負荷平衡を扱うため
に重要である。第２の決定は、動的負荷平衡・プロトコ
ルをサポートするために重要である。新しく評価中のス
レッドの最初の配置の決定は、しばしば現在評価中のス
レッドの移行を決めるために用いられる優先順位とは異
なる優先順位にもとづいて行われる。ＴＰＭインターフ
ェースはこの区別を保存する。

【０１４４】スケジューリング・ポリシーはいくつかの
重要な事柄に従って分類できる。

【０１４５】ローカリティ：このシステム内に単一のグ
ローバル待ち行列があるか、あるいは各ＴＰＭはそれ自
身の待ち行列を持っているか？状態：スレッドはそれらの現在の状態にもとづいて区別
されているか・例えば、あるアプリケーションは、すべ
てのスレッドが、それらの現在の状態に関係無く単一の
待ち行列を占めるという実現法を選択するかもしれな
い。あるいは、スレッドが評価中か、スケジュールされ
たか、保留されているかなどにもとづいて、スレッドを
異なる待ち行列に分類することを選択するかもしれな
い。

【０１４６】順序付け：待ち行列は、ＦＩＦＯ、ＬＩＦ
Ｏ、ラウンド・ロビン、優先順位、あるいはリアルタイ
ムの構造体として（他のものの中で）実現されているか
？直列化：アプリケーションはどのようなロッキング構造
を種々のポリシー・マネージャの待ち行列に課すか。

【０１４７】この分類でどの選択肢を選ぶかによって、
結果としての性能特性に差が生じる。例えば、評価中の
スレッド（すなわち、ＴＣＢを有するスレッド）をスケ
ジュールされたスレッドから区別するグラニュラリティ
構造体を適合させ、そしてスケジュールされたスレッド
のみを移行させることができるという制約を課した場
合、評価中のスレッドの待ち行列をアクセスするのにロ
ックは不要となる。この待ち行列は、それが生成された
ＶＰに対してローカルである。しかし、スケジュールさ
れたスレッドを保持している待ち行列は、他のＶＰ上の
ＴＰＭによる移行のターゲットであるから、ロックされ
なければならない。この種のスケジューリング方式は、
動的負荷平衡が問題ではない場合には、有用である。従
って、多数の長寿命の、非ブロッキング・スレッド（継
続時間はほぼ同じ）が存在するときは、ほとんどのＶＰ
は、それら自身のローカル・レディー待ち行列上のスレ
ッドの実行に、ほとんどの時間、ビジーとなる。従っ
て、このようなアプリケーションにおけるこの待ち行列
上のロックを除去することは有益である。一方、継続時
間が変動するスレッドを発生するアプリケーションは、
スケジュールされたスレッドおよび評価中のスレッドの
両方の移行が可能なＴＰＭと共に用いたとき、ラン可能
なレディー待ち行列をロックすることに伴ってコストが
かかるが、より高いパフォーマンスを示す。

【０１４８】スレッド・ポリシー・マネージャが新しい
スレッドを実行する必要があるときは常に、グローバル
待ち行列はスレッド・ポリシー・マネージャ間の競合を
意味する。しかし、このような仕組にすると、多くの並
列アルゴリズムの実現において有用である。例えば、マ
スタ／スレーブ（あるいはワーカー・ファーム）プログ
ラムでは、マスタに最初にスレッドのプールを生成す
る。これらのスレッドは、それら自身はいかなる新しい
スレッドも生まない、長寿命の構造体である。これらは
一度ＶＰ上でランすれば、滅多にブロックすることはな
い。従って、このようなスレッドを実行しているＴＰＭ
は、ローカル・スレッド待ち行列を維持することのオー
バーヘッドをサポートする必要はない。しかし、ローカ
ル待ち行列は、プロセスの構造がツリーあるいはグラフ
の形をとる結果、並列プログラムの実現においては有用
である。これらの待ち行列は、仮想プロセッサの組にお
いて公正にスレッドをロード・バランスするために、こ
のようなアプリケーションで用いることができる。

【０１４９】＜メッセージ伝達抽象体＞メッセージ伝達
は分離メモリ・アーキテクチャにおいて効率の良い通信
メカニズムでなければならない。特に、グラニュラリテ
ィの粗い並列アプリケーション、あるいは既知の通信パ
ターンを有する並列アプリケーションに対してそうであ
る。ポートは、分離メモリ・アーキテクチャ上で共有メ
モリを実現することのオーバーヘッドを最小限のものと
するためにスティング内に設けられたデータ抽象体であ
る。ファーストクラスのプロシージャおよびポートは、
このコンテクストにおいて共同作業を示す。

【０１５０】スティングは、メッセージ伝達抽象体を共
有メモリ環境において統合することを可能とする。ポー
トはファーストクラスのデータ・オブジェクトであり、
他のスレッドから送られるメッセージに対するレセプタ
クルとして働く。スティングは共有仮想メモリ・モデル
を用いるので、いかなる複合データ構造（閉包を含む）
でもポートを通じてやり取りできる。この柔軟性のた
め、スティングのアプリケーションはユーザ・レベルの
メッセージ伝達プロトコルを明瞭な形で実現でき、そし
て単一化した環境において共有メモリとメッセージ伝達
の最も優れた長所を結合することが可能となる。

【０１５１】ポートはファーストクラスのデータ構造で
ある。ポートに対しては２つの基本的オペレーションが
ある。

【０１５２】１．（ｐｕｔｏｂｊｐｏｒｔ）は、ｏ
ｂｊをｐｏｒｔにコピーする。この操作は送り手と非同
期である。

【０１５３】２．（ｇｅｔｐｏｒｔ）は、ｐｏｒｔ内
の最初のメッセージを除去し、ｐｏｒｔが空の場合には
ブロックする。

【０１５４】ポートＰから読み出したオブジェクトは、
Ｐに書き込まれたオブジェクトのコピーである。このコ
ピーは浅いコピーである。すなわち、オブジェクトの最
上位の構造体のみがコピーされており、下位の構造体は
共有されている。これらのポートは、共有メモリが不十
分な場合に用いるよう設計されているので、意味規則を
コピーすることで設計されている。ｐｕｔの標準バージ
ョンはシャローコピーを行うが、ディープコピーを行う
バージョンもある。そのバージョンは、最上位のオブジ
ェクトをコピーするだけでなく、下位の構造体もすべて
コピーする。

【０１５５】例えば、浅いコピーを用いてメッセージ内
の閉包を送る場合、閉包のコピーを構築する。しかし、
閉包が定義する環境内で束ねられたオブジェクトへの参
照は保存する。使用するコピー・メカニズムの選択は、
明らかに背後の物理的アーキテクチャとアプリケーショ
ンの分野の影響を受ける。スティング実現が存在する特
定の物理的サブストレートに適合させることのできる一
連のメッセージ伝達実現が存在する。

【０１５６】従って、つぎの表現の評価により、（ｐｕｔ（ｌａｍｂｄａ（）Ｅ）ｐｏｒｔ）プロシージャ（ｌａｍｂｄａ（）Ｅ）の閉包がｐｏｒｔ
へ送出される。ｐｏｒｔ上でレシーバが次のように定義
されているなら、（ｄｅｆｉｎｅ（ｒｅｃｅｉｖｅｒｐｏｒｔ）（ｌｅｔ（（ｍｓｇ（ｇｅｔｐｏｒｔ）））（ｆｏｒｋ−ｔｈｒｅａｄ（ｍｓｇ）（ｃｕｒｒｅｎｔ−ｖｐ））（ｒｅｃｅｉｖｅｒ）））送出されたプロシージャはこのレシーバの仮想プロセッ
サ上で評価される。レシーバは、メッセージを評価する
ために新しいスレッドを生成することによって、古いリ
クエストの処理と並行して新しいリクエストを受け入れ
ることができる。

【０１５７】このスタイルの通信は“アクティブ・メッ
セージ”と呼ばれている。それは、メッセージを受け取
ったとき行うべき動作が、基本のシステムの一部として
コード化されておらず、メッセージそれ自身によって決
められているからである。仮想プロセッサとスレッドの
インターフェースは、メッセージ通信をサポートするた
めにいかなる変更も必要としないので、このようなモデ
ルによって極めて大きい柔軟性と単純性が得られる。ス
ティングの設計における２つのことが、この機能の実現
にとって重要である。（１）オブジェクトが共有仮想メ
モリに存在するため、すべてのオブジェクト（他のオブ
ジェクトに対するレファランスを有しているオブジェク
ト、例えば閉包を含む）は仮想プロセッサ間で自由に送
信できる。（２）ファーストクラスのプロシージャは、
ユーザが定義する複雑なメッセージ・ハンドラーの構築
を可能とする。これらのハンドラーはいずれかの仮想プ
ロセッサ上の分離したスレッド内で実行できる。分離メ
モリ・マシンでは、オブジェクトは分散共有仮想メモリ
に存在することになろう。説明のため、上述の例で、Ｅ
をデータベースの複雑な問い合わせとする。このデータ
ベースが存在するプロセッサ上でレシーバが例示された
とすると、このような問い合わせは、データベース自身
の、コストのかかる移行を伴わない。問い合わせは、デ
ータベースが存在するプロセッサに直接コピーされるの
で、通信のコストが低減される。データベースそれ自身
は問い合わせを実行するプロセッサに移行する必要がな
い。より伝統的なＲＰＣスタイルの通信ではなくデータ
にプロシージャを送るという能力により、いくつかの点
で重要なパフォーマンスおよび表現性の向上が得られる
可能性がある。

【０１５８】ファーストクラスのプロシージャおよびラ
イトウエイトのスレッドは、アクティブ・メッセージに
おいて、魅力的な高レベルの通信抽象体を伝達する。こ
れらの抽象体を利用せずにアクティブ・メッセージをサ
ポートするシステムでは、この機能は典型的には低レベ
ル・サポート・プロトコルによって実現される。ファー
ストクラスのプロシージャはアクティブ・メッセージを
平凡に実現することを可能とする。アクティブ・メッセ
ージはポートに送られるプロシージャである。ファース
トクラスのポートは分散計算環境においても明確で重要
な効用を有し、そして従来のＰＲＣより簡単で、かつ清
潔なプログラミング・モデルの実現を可能とする。

【０１５９】＜メモリ管理＞スティングは共有仮想メモ
リ・モデルを用いる。分散メモリ・プラットフォーム上
ではスティングは分散共有仮想メモリ・サブストレート
上で構築されなければならない。従って、参照の意味
は、参照がどこで発生されているか、あるいはオブジェ
クトが物理的にどこにあるか、には依存しない。

【０１６０】＜記憶機構＞スティングでは各ＴＣＢ３２
に関連して３つの記憶領域がある（図５）。第１はスタ
ック３１であり、スレッドによって生成されたオブジェ
クトの割り当てに用いられる。このスレッドの寿命は、
それを生成したものの動的な範囲を越えない。より正確
には、スタック上に割り当てられたオブジェクトは、現
在の（あるいは前の）スタック・フレームに割り当てら
れた他のオブジェクト、あるいはヒープに割り当てられ
た他のオブジェクトしか参照できない。スタックが割り
当てられたオブジェクトはヒープ内のオブジェクトを参
照することができる。なぜなら、そのスタックに関連す
るスレッドは、ヒープ３３がガーベッジ・コレクション
される間、保留となるからである。スタックに含まれて
いる参照情報は、ガーベッジ・コレクタによってトレー
スしたとされるルートの一部である。

【０１６１】スレッドにとってプライベートなヒープ、
すなわちローカル・ヒープ３３は、割り当てられた非共
有オブジェクトに対して用いられる。このオブジェクト
は、その寿命が、オブジェクトを生成したプロシージャ
の寿命を越える可能性がある。越える可能性があるとし
たのは、スキームやＭＬなどのプログラミング言語では
コンパイラがオブジェクトの寿命を常に決めることがで
きるとは限らないからである。さらに、未知のプロシー
ジャに対するコールが可能な言語においては、オブジェ
クトの寿命が決められない場合もある。プライベート・
ヒープに含まれている参照情報は同じプライベート・ヒ
ープ内の他のオブジェクト、あるいは共有ヒープ、すな
わちグローバル・ヒープ３５を示すことができるが、ス
タック３１内のオブジェクトを示すことはできない。こ
のスタック内の参照情報はプライベート・ヒープ内のオ
ブジェクトを示すことができるが、共有ヒープ内の参照
情報はこれらのオブジェクトを示せない。プライベート
・ヒープに割り当てられたデータは、単一の、制御のス
レッドによって排他的に用いられるので、プライベート
・ヒープによってより高いローカリティが実現する。複
数のスレッド間にさしはさまれた割り当てがないという
ことは、ヒープ内で互いに接近したオブジェクトは、論
理的に互いに関連している可能性が高いことを意味す
る。

【０１６２】他のスレッドは、スレッドのスタックある
いはローカル・ヒープ内に含まれているオブジェクトを
アクセスできない。従って、スレッドのスタックおよび
ローカル・ヒープは共に、同期化あるいはメモリのコヒ
ーレンシーを考慮することなく、プロセッサ上のローカ
ル・メモリにおいて実現することができる。スレッドの
ローカル・ヒープは実際には、世代的に組織した一連の
ヒープである。記憶領域の割り当ては常に、他の世代的
コレクタと同様に、最も若い世代において行われる。オ
ブジェクトは、年齢が高くなるにつれて、古い世代に移
動される。ローカル・ヒープのガーベッジ・コレクショ
ンはすべてスレッドそれ自身によって行われる。ガーベ
ッジ・コレクションをサポートするほとんどのスレッド
・システムでは、システム内のスレッドはすべて、ガー
ベッジ・コレクションの間は保留されなければならな
い。それに対して、スティングのスレッドは、他のスレ
ッドと独立して、そして非同期的にそれらのローカル・
ヒープをガーベッジ・コレクションする。従って、他の
スレッドは、特定のスレッドがそのローカル・ヒープを
コレクションしている間、計算を続けることができる。
その結果、より優れた負荷平衡と高いスループットが得
られる。このガーベッジ・コレクションのストラテジィ
の第２の長所は、ローカル・ヒープのガーベッジ・コレ
クションにかかるコストが、システム内のすべてのスレ
ッドに課されるのではなく、記憶領域を割り当てるスレ
ッドにのみ課されるという点にある。

【０１６３】スティングは、関連するスレッドの集まり
を制御するための手段として“スレッド・グループ”を
与える。子のスレッドは、それが新しいグループの一部
として生成されたのでない限り、その親と同一のグルー
プに属する。スレッド・グループは、デバッグおよびモ
ニタのためのオペレーション（例えば、与えられたグル
ープ内のすべてのスレッドのリストアップ、すべてのグ
ループのリストアップ、プロファイリング、系統の報告
など）と共に、通常のスレッドのオペレーション（例え
ば、終了、保留など）を与える。さらに、スレッド・グ
ループはまた、そのメンバーがすべてアクセスできる
“共有ヒープ”を含んでいる。

【０１６４】スレッド・グループの共有ヒープ、すなわ
ちグローバル・ヒープ３５は、スレッド・グループが生
成されたとき割り当てられる。ローカル・ヒープのよう
な共有ヒープは実際には、世代的に組織された一連のヒ
ープである。共有ヒープ内の参照情報は共有ヒープ内の
オブジェクトしか示せない。これは、共有オブジェクト
から参照されるオブジェクトはすべて共有オブジェクト
であり、従って、共有ヒープ内に存在しなければならな
いからである。この共有ヒープに対する制約は、（ａ）
共有ヒープ内にあるか、あるいは（ｂ）ローカル・ヒー
プ内に割り当てられていて、共有ヒープ内にガーベッジ
・コレクションされているオブジェクトを、共有ヒープ
に記憶された参照情報が指示することを保証することに
よって、実施される。すなわち、参照されたオブジェク
トから到達可能なオブジェクトのグラフは、共有ヒープ
内にコピー、または配置されなければならない。このメ
モリ・モデルのオーバーヘッドは、ローカル・ヒープ上
に割り当てられたオブジェクトに対する参照情報がどれ
くらい頻繁にエスケープするかによって決まる。経験に
よれば、ファイン・グレインド並列プログラムを実現す
る場合、ローカル・ヒープに割り当てられたオブジェク
トはほとんど、関連するスレッドに対してローカルであ
り続け、共有されない。スレッド間で頻繁に共有される
オブジェクトは、言語抽象体あるいはコンパイル時の分
析によって容易に検出される。

【０１６５】要約すると、あるスレッドに関連するスレ
ッド領域間の参照規律は次のようになる。すなわち、
（１）スタック内の参照情報は、その現在のあるいは以
前のスタック・フレーム、またはローカル・ヒープ、ま
たは共有ヒープ内のオブジェクトを示し、（２）ローカ
ル・ヒープ内の参照情報は、そのヒープ上のオブジェク
トあるいはなんらかの共有ヒープに割り当てられたオブ
ジェクトを示し、そして（３）共有ヒープ内の参照情報
は、その共有ヒープ（あるいは、他のなんらかの共有ヒ
ープ）に割り当てられたオブジェクトを示す。

【０１６６】ローカル・ヒープのように、グローバル・
ヒープは世代的に組織されているが、グローバル・ヒー
プのガーベッジ・コレクションは、ローカル・ヒープに
対するものより複雑である。それは、多数の異なるスレ
ッドが、グローバル・ヒープ内のオブジェクトを同時に
アクセスする場合があるからである。なお、その結果、
グローバル・ヒープの割り当てにはヒープのロックが必
要である。

【０１６７】グローバル・ヒープをガーベッジ・コレク
ションするために、関連するスレッド・グループ内のす
べてのスレッド（そして、その下位のもの）は保留され
る。それは、これらのスレッドはすべてグローバル・ヒ
ープ内のデータをアクセスできるからである。しかし、
システム内の他のスレッド、すなわち、ガーベッジ・コ
レクションされるヒープに関連するグループ内にないも
のは、ガーベッジ・コレクションと無関係に実行を継続
する。

【０１６８】各グローバル・ヒープは、それに関連し、
そこに到来する参照情報を有している。これらの組は、
領域境界を横断する参照情報の記憶に対するチェックに
よって、維持される。グローバル・ヒープに関連するス
レッドが保留された後、ガーベッジ・コレクタは到来参
照情報の組をガーベッジ・コレクションのためのルート
として用いる。到来参照情報の組から到達できるオブジ
ェクトはすべて新しいヒープにコピーされる。ガーベッ
ジ・コレクションが終了すると、グローバル・ヒープに
関連したスレッドは再開される。

【０１６９】＜抽象物理的マシンおよび抽象物理的プロ
セッサ＞このオペレーティング・システムの最も低レベ
ルの抽象体は、抽象物理的マシン（ＡＰＭ）と呼ばれる
マイクロ・カーネルである。

【０１７０】ＡＰＭはスティング・ソフトウエア・アー
キテクチャにおいて３つの重要な役割を果たす。

【０１７１】１．複数の仮想マシンをサポートする安全
で効率的な基礎を提供する。

【０１７２】２．システム内の他のすべての要素を、ハ
ードウエアに依存する特徴および特異性から分離する。

【０１７３】３．システムの物理的ハードウエアに対す
るアクセスを制御する。

【０１７４】ＡＰＭはルート仮想マシンと呼ばれる特別
の仮想マシン内で実現される。このマシンは、仮想アド
レス空間、仮想プロセッサ、ならびにスレッドを含む、
他のいずれの仮想マシンでも利用できる機能に対するア
クセス手段を有している。さらに、ルート仮想マシン
は、抽象物理的プロセッサ、デバイス・ドライバ、なら
びに仮想メモリ・マネージャに対するアクセス手段を有
している。抽象物理的マシンは仮想マシンによって構成
されており、その結果、いくつかの重要な表現性が得ら
れる。ヘビーウエイトのスレッドは一切無い。すべての
スレッドはライトウエイトである。システム・コールを
実現するカーネル・スレッドあるいはスタックは無い。
すべてのシステム・コールは、システム・コールを作成
するスレッドの実行コンテクストを用いて扱われる。こ
のことは、スキームが安全な言語であり（すなわち、ダ
ングリング・ポインタ、アドレスとデータ間の自由強制
などは不可能である）、そしてＡＰＭの部分はシステム
内のすべての仮想マシンにマッピングされているため、
可能となっている。ユーザのスレッドが利用できる非同
期のプログラミング構築体は、ＡＰＭ内のスレッドも利
用できる。ＡＰＭに関連したスレッドは、仮想マシン内
の他のすべてのスレッドと同様に制御することができ
る。カーネル操作の実行をブロックするスレッドは、そ
のことを、それらスレッドの仮想プロセッサに通知す
る。それによってＶＰは他のなんらかのスレッドを自由
に実行できる。これはスレッド間の通信およびＩ／Ｏの
両方の場合に行われる。スティングは、例えば、スケジ
ューラの起動、あるいはＰｓｙｃｈｅの仮想プロセッサ
抽象体と同じ能力を提供するように、非ブロッキング・
カーネル・コールを処理する。

【０１７５】仮想マシンはＡＰＭによって生成され、そ
して破壊される。新しい仮想マシンの生成には以下のこ
とが伴う。

【０１７６】１．新しい仮想アドレス空間を生成する。

【０１７７】２．このアドレス空間にＡＰＭカーネルを
マッピングする。

【０１７８】３．この仮想マッピング内にルート仮想プ
ロセッサを生成する。

【０１７９】４．このマッピングに抽象物理的プロセッ
サを割り当てる。

【０１８０】５．抽象物理的プロセッサ上でランさせる
ために上記ルート仮想プロセッサをスケジュールする。

【０１８１】仮想マシンの破壊には、そのマシン上でラ
ンしているすべてのスレッドを終了させるための信号を
発生し、マシン内で実行しているスレッドがオープンし
たデバイスをすべてクローズし、そして最後に、このマ
シンに関連する仮想アドレス空間の割り当てを解除する
ことが伴う。

【０１８２】各プロセッサ抽象体１２は仮想プロセッサ
・コントローラ（ＶＰＣ）１３と仮想プロセッサ・ポリ
シー・マネージャ（ＶＰＰＭ）１５から成る。ＶＰコン
トローラとＶＰポリシー・マネージャとの関係は、スレ
ッド・コントローラとスレッド・ポリシー・マネージャ
との関係と同種である、すなわちＶＰコントローラはＶ
Ｐポリシー・マネージャの依頼者である。ＶＰコントロ
ーラがポリシーの決定を行うことが必要となった場合に
は必ず、ＶＰコントローラはその決定を行うためにＶＰ
ポリシー・マネージャをコールする。

【０１８３】物理的プロセッサはすべて同一のＶＰコン
トローラをランさせるが、それらは異なるＶＰポリシー
・マネージャをランさせることができる。その結果、マ
ルチプロセッサ・システムはシステムによる各物理的プ
ロセッサの利用をカスタマイズすることが可能となる。
また、システムは各物理的プロセッサ上で同じＶＰポリ
シー・マネージャをランさせることも可能である。

【０１８４】仮想マシンが抽象物理的プロセッサ上の仮
想プロセッサをスケジュールしようとする場合、仮想マ
シンはその物理的プロセッサ上の仮想プロセッサ・コン
トローラをコールする。同様に、仮想マシンが、抽象物
理的プロセッサから仮想プロセッサを除去しようとする
場合には、仮想マシンはその物理的プロセッサ上の仮想
プロセッサ・コントローラをコールする。各ＶＰコント
ローラは、仮想プロセッサの状態変化を含め、その物理
的プロセッサにマッピングされた仮想プロセッサを管理
する。

【０１８５】ＶＰポリシー・マネージャは、物理的プロ
セッサ上の仮想プロセッサのスケジューリングおよび移
行に係わるすべてのポリシーの決定を行う。この決定に
は３つのタイプがある。第１に、ＶＰポリシー・マネー
ジャはＶＰからＰＰへのマッピングを決める。このマッ
ピングは２つの異なるタイミングで行われる。すなわ
ち、ＶＰが最初にランされたときと、ブロックされてい
たＶＰが再びランされたときである。第２に、ポリシー
・マネージャは、ＰＰ上のＶＰをランさせる順番と期間
を決定する。最後に、ＶＰポリシー・マネージャは、い
つＶＰをあるプロセッサから他のプロセッサに移動（移
行）させるべきかを決める。

【０１８６】これらの３つの決定によって、ＶＰポリシ
ー・マネージャはマシン上のワーク・ロードのバランス
をとることができ、そして仮想マシンに関する物理的マ
シンの公正さに係わる性質を決めることができる。ま
た、物理的プロセッサが故障したとき、故障許容ＶＭの
ＶＰをどこに移動させるかを決めることができる。

【０１８７】スレッド・ポリシー・マネージャのように
ＶＰはＶＰコントローラに対して良く定義されたインタ
ーフェースを提供する。ＶＰポリシー・マネージャがそ
の決定を行うために用いるデータ構造はＶＰポリシー・
マネージャに対して完全にプライベートである。これら
のデータ構造は特定のＶＰポリシー・マネージャに対し
てローカルとできるか、またはＶＰポリシー・マネージ
ャの種々の場合において共有できるか、またはそれらの
組み合せとできる。しかし、システムの他の要素はそれ
らに対するアクセス手段を持たない。ＶＰポリシー・マ
ネージャは、スティングの異なる場合に対して異なる振
舞をするようにカスタマイズすることができる。この機
能により、スティングを、リアルタイム・システムや、
会話型システムや、多量の計算を行うシステムなど、さ
まざまなオペレーテイング・システム環境に対して、カ
スタマイズすることが可能となる。

【０１８８】最後に、スレッド・ポリシー・マネージャ
はスレッド間の負荷平衡および公正さに係わっている
が、仮想プロセッサ・ポリシー・マネージャは、仮想マ
シン間および仮想プロセッサ間の負荷平衡および公正さ
に係わっている。

【０１８９】ＡＰＭ内の各物理的プロセッサは、仮想プ
ロセッサ・コントローラ（ＶＰＣ）と仮想プロセッサ・
ポリシー・マネージャ（ＶＰＰＭ）を含んでいる。この
点で、物理的プロセッサは構造的に仮想プロセッサと同
一である。ＶＰＣは仮想プロセッサ上の状態変化に影響
を与える。スレッドのように、仮想プロセッサはラン、
レデイー、ブロック、あるいは終了のいずれかの状態を
とり得る。ラン状態のＶＰは物理的プロセッサ上で現在
実行されている。レディー状態のＶＰはランすることが
可能であるが、現在はランしていない。ブロック状態の
ＶＰは、なんらかの外部イベント（例えばＩ／Ｏ）を待
っているスレッドを実行している。ＶＰＰＭは物理的プ
ロセッサ上のＶＰのスケジューリングを行う。そのスケ
ジューリング・ポリシーはＴＰＭが用いるものと同様で
ある。ＶＰＰＭは良く定義されたインターフェースをＶ
Ｐコントローラに対して提供する。異なるスティングの
システムは異なるＶＰポリシー・マネージャを備えるこ
とができる。

【０１９０】＜例外の扱い＞同期した例外および割込は
スティングでは一様に扱われる。すべての例外には、例
外を扱うための１組の動作を実行するハンドラーが関連
している。ハンドラーはスレッド内で実行するプロシー
ジャである。プロセッサＰ上で生じた例外は、Ｐの現在
のスレッドのコンテクストを用いて実行する。スティン
グのマイクロ・カーネル内には特別の例外スタックは無
い。プロセッサＰ上である例外（例えば、無効命令、メ
モリ保護破壊など）が生じた場合、Ｐの現在のコンティ
ニュエーション（すなわち、プログラム・カウンタ、ヒ
ープ・フロンティア、スタックなど）がまず退避され
る。次に例外ディスパッチャーは例外のターゲットを見
つけるため、スレッドがランしている場合にはそれを中
断し、そしてハンドラーのコンティニュエーションおよ
び引数をターゲット・スレッドのスタック上にプッシュ
する。次に、ディスパッチャーは（ａ）現在のスレッド
を、単純にそれに復帰させることによって再開させる
か、（ｂ）ターゲット・スレッドを再開させるか、ある
いは（ｃ）このプロセッサ上の他のいずれかのスレッド
を再開させるためにスレッド・コントローラをコールす
るか、いずれかを選択する。ターゲット・スレッドが再
開された場合には、そのスレッドはそのスタックの最も
上のコンティニュエーションを実行する。これは例外ハ
ンドラーのコンティニュエーションである。

【０１９１】スティングにおけるこの例外処理手段はい
くつかの点で優れている。

【０１９２】１．この例外処理手段はプロシージャであ
るため、単にそれをコールするだけで例外を扱える。

【０１９３】２．例外は、実行コンテクストを受け取る
スレッドの実行コンテクストにおいて扱われる。

【０１９４】３．例外は現在のスレッドのコンテクスト
においてディスパッチされる。

【０１９５】４．一度ディスパッチされた例外はターゲ
ット・スレッドの現在のコンティニュエーションとな
り、そしてスレッドが再開されたとき自動的に実行され
る。

【０１９６】５．例外はターゲット・スレッドが再開さ
れたときのみ扱われる。

【０１９７】６．例外を扱うコードはスキームによっれ
書かれ、そしてそのコードはコンティニュエーションと
プロシージャを操作して所望の効果を達成する。

【０１９８】ファーストクラスのプロシージャとスレッ
ド、明白なコンティニュエーション、動的な記憶領域の
割り当て、ならびに均一なアドレシング・メカニズムは
すべてスティングの設計の中心的な特徴であり、その結
果、スティングはこの例外のモデルを与えることが可能
となっている。

【０１９９】同期した例外のターゲット・スレッドは常
に現在のスレッドである。非同期の例外、すなわち割り
込みはわずかに異なる形で扱われる。割り込みはどのス
レッド（現在実行中のスレッドではない）でも制御でき
るので、このような例外を扱うためには、ハンドラー
は、例外を直接処理するか、すなわち現在ランしている
スレッドを中断して例外を扱うか、あるいは新しいハン
ドラーを生成する必要がある。割込ハンドラーもスキー
ムのプロシージャであるため、ハンドラーを実行するた
めにスレッドを確立するか、あるいは現在のスレッドを
用いる場合、単に適当なスレッドの現在のコンティニュ
エーションを、ハンドラーをコールするように設定すれ
ばよい。スティングの例外ディスパッチャーのための疑
似コードを以下に示す。

【０２００】１：（ｄｅｆｉｎｅ（ｅｘｃｅｐｔｉｏｎ−ｄｉｓｐａｔｃｈｅｒｔｙｐｅ．ａｒｇｓ）２：（ｓａｖｅ−ｃｕｒｒｅｎｔ−ｃｏｎｔｉｎｕａｔｉｏｎ）３：（ｌｅｔ（（ｔａｒｇｅｔｈａｎｄｌｅｒ（ｇｅｔ−ｔａｒｇｅｔ＆ｈａｎｄｌｅｒｔｙｐｅａｒｇｓ）））４：（ｃｏｎｄ（（ｅｑ？ｔａｒｇｅｔ（ｃｕｒｒｅｎｔ−ｔｈｒｅａｄ））５：（ａｐｐｌｙｈａｎｄｌｅｒａｒｇｓ））６：（ｅｌｓｅ７：（ｓｉｇｎａｌｔａｒｇｅｔｈａｎｄｌｅｒａｒｇｓ）８：（ｃａｓｅ（（ｅｘｃｅｐｔｉｏｎ−ｐｒｉｏｒｉｔｙｔｙｐｅ））９：（（ｃｏｎｔｉｎｕｅ）（ｒｅｔｕｒｎ））１０：（（ｉｍｍｅｄｉａｔｅ）（ｓｗｉｔｃｈ−ｔｏ −ｔｈｒｅａｄｔａｒｇｅｔ））１１；（（ｒｅｓｃｈｅｄｕｌｅ）（ｙｉｅｌｄ−ｐｒｏｃｅｓｓｏｒ）））））））ライン２では、現在のコンティニュエーションが現在の
スレッドのスタックに退避される。このコンティニュエ
ーションは、エスケープできず、そして一度だけコール
されるので、上記スタックに上記コンティニュエーショ
ンを退避できる。ライン３では、ディスパッチャーが、
例外の対象となるスレッドと、例外のタイプに対するハ
ンドラーとを見つける。ライン４では、例外のターゲッ
トが現在のスレッドであるかどうかがチェックされ、そ
うなら、例外コンティニュエーションはプッシュされな
い（ライン５）。ディスパッチャーはハンドラーをむし
ろ単純にその引数に適用する。ディスパッチャーはすで
に例外ターゲット（すなわち現在のスレッド）のコンテ
クストで走っているので、このことが有効である。例外
のターゲットが現在のスレッドでない場合には、ディス
パッチャーは例外をターゲット・スレッドに送る（ライ
ン７）。スレッドに信号を送ることはスレッドを中断
し、信号ハンドラーとその引数とを含むコンティニュエ
ーションをスレッドのスタックにプッシュすること、そ
して信号ハンドラーが実行されるようにするスレッドを
再開させることと等価である。ターゲット・スレッドに
信号を送った後、ハンドラーはプロセッサ上で次にどの
スレッドを走らせるかを決める（ライン８）。走らせる
のはそれ自身の場合もあり（ライン９）、あるいはター
ゲット・スレッド（ライン１０）か、または最も優先順
位の高いスレッドの場合もある（ライン１１）。

【０２０１】スティングの例外ハンドリング機能と他の
オペレーティング・システムにおけるものとは、もう１
つ重要な点で異なっている。例外を扱うスレッドは、シ
ステム内のユーザ・レベルのスレッドと違わないので
（例えば、それらは自身のスタックとヒープを持ってい
る）、また、例外ハンドラーは通常のファーストクラス
のプロシージャであるため、ハンドラーは記憶領域を自
由に割り当てることができる。ハンドラーによって生成
されたデータは、他のデータが復元されるのと同じ方法
で、ガーベッジ・コレクタによってリクレームされよ
う。例外ハンドリングのメカニズムと、より高レベルの
スティングの抽象体との間の均一性のため、デバイス・
ドライバを実現したとき、高い表現性および高い効率が
得られる。このことは、上記均一性が無い場合には、並
列言語あるいは並列オペレーティング・システムにおい
て実現しない。

【０２０２】ファーストクラスのプロシージャとスレッ
ド、明白なコンティニュエーション、動的な記憶領域の
割り当て、ならびに均一なアドレシング・メカニズムが
すべてスティングの設計の特徴であるため、スティング
はこの例外のモデルを与えることができる。

【０２０３】＜並行パラダイム＞以上、ソフトウエア・
アーキテクチャについて詳しく説明したが、以下におい
てはいくつかの広範は並行パラダイムについて説明し、
本発明のソフトウエア・アーキテクチャによってそれを
実現する。

【０２０４】結果としての並行プログラムでは、並行し
て実行する各プロセスは、複合データ構造（例えば、ア
レーあるいはリスト）の値に影響を与える。または各プ
ロセスは複合プロセスのグラフのメンバーである。プロ
セスの通信はこの結果の構造体またはグラフによる。そ
のｃｏｎｔｒｉｂｕｔｉｎｇプログラムがまだ評価中で
ある結果の要素にアクセスを試みる表現は、プログラム
が完了するまでブロックする。フューチャーは、結果
としての並行アルゴリズムを実施するのに非常に適した
オペレーションの良い例である。ＭｕｌｔｉＬｉｓｐあ
るいはＭｕｌ−Ｔの表現によって生成されたオブジェク
ト（フューチャーＥ）は、計算Ｅのためのスレッドを生
成する。そしてリターンされたオブジェクトはフューチ
ャーとして知られている。結果としてｖを生じてＥが終
了したとき、フューチャーが確定したと言う。フューチ
ャーにタッチする表現は、Ｅがまだ計算されている場合
にはブロックし、他方、フューチャーが確立した場合に
はｖを与える。

【０２０５】図１１に示す素朴なソーティング・プログ
ラムでは、フューチャーの各例は新しいスレッドの生成
を伴う。この振舞は望ましいものではない。それは、プ
ロセス・ツリーのレベルｉで計算を行うフューチャーは
レベルｉ＋１などにおいてその子に対して明らかなデー
タ依存性を有しているといった理由による。このプログ
ラムにおいてデータ依存性があった場合、プロセッサお
よび記憶装置の利用度が低下する結果となる。これは、
生成されたライトウエイトのプロセスの多くが、まだ未
評価のフューチャーのものとして他の値をリクエストす
るときブロックする必要があるか、または、例えば、小
さい素数を計算するプロセスの場合、それらを生成する
ために必要なコストに比べ、少量の計算を行うためであ
る。

【０２０６】スレッドの動的な状態は大きいオブジェク
ト（例えば、スタックおよびヒープ）から成るので、プ
ロセスのブロッキングが頻繁に生じる場合、あるいはプ
ロセスにグラニュラリティが小さすぎる場合、キャッシ
ュおよびページのローカリティについては妥協する。

【０２０７】タッチおよびフューチャーの意味規則は、
他のフューチャーＧにタッチするフューチャーＦは、Ｇ
がまだ確定していない場合、Ｇでブロックしなければな
らないということを命令する。Ｔ_FおよびＴ_Gをそれぞ
れＦおよびＧのスレッド表現とする。Ｇでのタッチ・オ
ペレーションのランタイム・ダイナミックスは、ＴＢが
（ａ）遅延またはスケジュールされたとき、（ｂ）評価
しているとき、（ｃ）または確定したときのいずれかの
場合、Ｔ_Gに対するアクセスを伴う場合がある。最後の
ケースでは、これらのスレッド間で同期化は不要であ
る。ケース（ｂ）の場合、Ｔ_FはＴ_Gが完了するまでブ
ロックする必要がある。ケース（ａ）の場合、スティン
グでは重要な最適化を行う。これについては以下に説明
する。

【０２０８】ＴＦは、ＴＧ内に閉じ込められた閉包（Ｅ
と呼ぶ）を、コンテクスト・スイッチをブロックし、強
制するより、むしろそれ自身のスタックトヒープとを用
いて評価することができる。実際、スティングでは、Ｅ
を通常のプロシージャとして扱い、Ｇのタッチを単純な
プロシージャ・コールとして扱う。この場合、Ｔ_FがＴ
_Gを吸収すると言う。Ｔ_Fは、その他の場合には必然的
にブロックするという点でこの最適化は正しい。Ｔ_Fの
動的なコンテクストを用いてＥを適用することによっ
て、Ｔ_Fが動作するＶＰは、コンテクスト・スイッチを
実行するというオーバーヘッドを負わない。また、Ｔ_F
のＴＣＢが代りに用いられるので、Ｔ_Gに対してＴＣＢ
を割り当てる必要がない。

【０２０９】この最適化は、コールしているスレッドが
必ずしもブロックする必要がない場合に用いられたと
き、目立って異なった結果を導くのみとなる場合があ
る。例えば、Ｔ_GがＴ_Fによるスペキュラティブ・コー
ルの要素であったとする。さらに、Ｔ_Gは分岐するが、
他のスペキュラティブ・スレッド（Ｔ_Hと呼ぶ）は分岐
しないとする。吸収が無い場合には、Ｔ_GおよびＴ_Hは
共に別々のスレッド・コンテクストを生む。しかし、吸
収がある場合には、Ｔ_FはＴ_Gを吸収することができ、
そして、Ｔ_GがループするのでＴ_Fもループしよう。ス
レッドが吸収できるか、またはできない場合、ユーザは
スレッドの状態をパラメータ化して、ＴＣに通知するこ
とができる。スティングはこのためのインターフェース
・プロシージャを提供する。

【０２１０】吸収のため、スティングはコンテクスト・
スイッチィングのオーバーヘッドを低減させ、そしてプ
ログラムにおいてプロセスが互いに強いデータ依存性を
示すとき、そのプログラムに対するプロセスのグラニュ
ラリティを増大させる。もちろん、オペレーションを最
も効果的なものにするため、スケジュールされたスレッ
ドが吸収された状態になり得るよう、スレッドのグラニ
ュラリティは十分に大きいものでなければならない。プ
ロセスのグラニュラリティが小さすぎる場合には、吸収
しているスレッドがそれらの値を要求できる前に、プロ
セッサは吸収され得る可能性のあるスレッドの評価を開
始しよう。

【０２１１】負荷にもとづくインライニングおよびレイ
ジーなタスク生成は、他の並列Ｌｉｓｐシステムに応用
された２つの他の同種の最適化である。負荷にもとづく
インライニングでは、現在のシステムの負荷がある特定
のスレッシュホールドを越えた場合、スレッドはインラ
イン（すなわち、吸収）される。この最適化では、プロ
グラマの介入は不要であるだけでなく、ある種の条件の
もとでは、本来終了するはずのプログラムがデッドロッ
クあるいは長時間の停止状態になる場合がある。これは
インライニングの決定が撤回できないからである。従っ
てこの最適化では、タスクが、そのデータ依存性のため
にある順序で評価される必要があるとき、それとは異な
る特定の評価の順序をタスクに課す。スレッドの吸収
は、吸収されない場合にはスレッドがブロックするとき
のみ、そしてデータの依存性が保証されているときのみ
生じるので、この問題の影響を受けない。

【０２１２】レイジーなタスクの生成は、負荷にもとづ
くインライニングに係わる多くの問題を解決する。レイ
ジーなタスクの生成では、常にすべてのスレッドの評価
がインラインされるが、しかしプロセッサがアイドル状
態となったとき、このインライニング・オペレーション
を撤回可能とする。スレッドは実際に必要とされない限
り決して生成されない。この設計ではプログラマの介入
を必要とせず、本来デッドロックしないプログラムのデ
ッドロックを招かず、そして、実際に発生されるタスク
の数が低減される。

【０２１３】スレッドの吸収はレイジーなタスクと主に
２つの点で異なっている。（１）スレッドの吸収は、ア
プリケーションによって決まるスケジューリング・プロ
トコルが存在しても働く。レイジーなタスク生成はグロ
ーバルＬＩＦＯスケジュールと、インラインされたスレ
ッドを保持するための単一の待ち行列の存在とを仮定す
る。（２）レイジーなタスク生成は、１つのプロセッサ
に対して１つのグローバル・ヒープを用いる。レイジー
なタスクの生成では、タスクがスティールされたとき、
スレッド吸収の場合よりローカリティは低下する。第２
に、レイジーなタスク生成の場合のガーベッジ・コレク
ションでは、システム内のすべてのスレッドを停止させ
る必要がある（コレクタそれ自身が並列であっても）。
スレッドの吸収の場合にはこの制約はない。

【０２１４】他の例はマスタ・スレーブのパラダイムで
あり、これは並列プログラムを構成するためのポピュラ
ーな技術である。この技術では、発生されたプロセスの
コレクションは先験的に行われる。マスタ・プロセスは
いくつかのワーカー・プロセスを発生し、それらの結果
を結合する。プロセスの通信は典型的には共有並行デー
タ構造あるいは共有並行変数を通じて行われる。マスタ
・スレーブ・プログラムがしばしば、ストック・マルチ
プロセッサ・プラットフォーム上の結果の並列プログラ
ムより効率的である。それは、ワーカーが、それらの結
果を発行する場合を除いて、ほとんど互いに通信する必
要がないからである。そしてプロセスのグラニュラリテ
ィを調整でき、より高い性能が得られる。

【０２１５】スキームにおけるファーストクラスのタプ
ル空間を最適化して実現するためにスティングを用い
た。タプル空間は、同期化コンテント・アクセサブル・
メモリの抽象体として機能するオブジェクトである。タ
プル空間は、マスタ／スレーブにもとづく多数のアルゴ
リズムを具体化するための自然の選択である。

【０２１６】タプルはオブジェクトであり、タプル・オ
ペレーションはバインディング表現であって、ステート
メントではないので、ファーストクラスの指示可能なタ
プル空間の存在により、モジュール性および表現性がさ
らに向上する。望ましい実施例では、タプル空間は、同
期化したベクトル、待ち行列、ストリーム、セット、共
有変数、信号、あるいはバッグとして特殊化できる。タ
プル空間上で許可されたオペレーションは、それらの表
示において不変である。さらに、アプリケーションは必
要ならタプル空間の間の継承階級を指定できる。

【０２１７】プロセスは新しいタプルをタプル空間に読
み込んだり、除去したり、預けることができる。読み込
みオペレーションあるいは除去オペレーションにおける
タプル・引数は“テンプレート”と呼ばれ、“？”を前
に付けた変数を含むことができる。このような変数は
“フォーマル”と呼ばれ、マッチ・オペレーションの結
果としてバインディング値を獲得する。これらのフォー
マルによって獲得されたバインデイング値は、下位の表
現の評価において用いられる。従って、次のように書く
ことができる。

【０２１８】（ｇｅｔＴＳ［？ｘ］（ｐｕｔＴＳ［（＋ｘ１］））これによって１つのタプルがＴＳから除去され、１だけ
インクリメントされ、そしてＴＳに再び預けられる。

【０２１９】この実施例ではまた、スレッド吸収も利用
して、タプル空間上で同期するグラニュラリティの細か
い並列プログラムの構築を可能とする。スレッドはタプ
ル内で真正な要素として用いられる。次の表現を実行す
るプロセスＰを考える。

【０２２０】（ｒｄＴＳ［ｘ１ｘ２］Ｅ）ここで、ｘ１とｘ２は非フォーマルである。さらに、Ｔ
Ｓ内のタプルがオペレーション（ｓｐａｕｎＴＳ
［Ｅ₁ Ｅ₂］）の結果として預けられているとする。
このオペレーションはＥ₁とＥ₂を計算する２つのスレ
ッド（ＴＥ₁およびＴＥ₂と呼ぶ）をスケジュールす
る。ＴＥ₁とＴＥ₂が共に完了すると、結果としてのタ
プルは２つの確定したスレッドを含んでいる。マッチン
グ・プロシージャは、タプル内でスレッドに遭遇したと
き、ｔｈｒｅａｄ−ｖａｌｕｅを適用する。このオペレ
ーションはそのスレッドの値を回収する。

【０２２１】しかし、Ｐが実行されるときＴＥ₁がまだ
スケジュールされている場合には、Ｐはそれを自由に吸
収でき、その結果がｘ１に一致するときは確定する。一
致するものが存在しない場合には、Ｐは、スケジュール
された状態にあるかもしれないＴＥ₂を残して、他のタ
プルのサーチへと進む。その後、他のプロセスがこの同
じタプルを調べることは可能であり、正当な理由がある
ならＴＥ₂を吸収する。同様に、ＴＥ₁の結果がｘ１と
一致するなら、Ｐは次にＴＥ₂を自由に吸収できる。Ｔ
Ｅ₁またはＴＥ₂のいずれかがすでに評価を行っている
場合には、Ｐは、１つ（または両方）のスレッドでブロ
ックするか、またはＴＳ内で、他に一致する可能性のあ
るタプルを調べるかを選択する。タプル空間の意味規則
は、この点でこの実施例に対して制約を課さない。

【０２２２】スティングの、ファーストクラスのスレッ
ドとスレッド吸収との組み合せは、共有データ構造を用
いて、疑似要求によって駆動されるグラニュラリティの
細かい（結果）並列プログラムを書くことを可能とす
る。この意味で、スレッド・システムは、構造にもとづ
く同期化（例えば、タプル空間）とデータフロー・スタ
イルの同期化（例えば、フューチャー／タッチ）との間
の意味のある区別の最小化を試みる。

【０２２３】スペキュラティブ並列は重要なプログラミ
ング技術であるが、それを実現した際に生じるランタイ
ムのオーバーヘッドのために、しばしば効果的に用いる
ことができない。スペキュラティブ・プログラミング・
モデルをサポートするシステムに最も頻繁に係わる２つ
の特徴は、他のものより一層有望なタスクを奨励する能
力と、不要な計算を中止および再利用（そして、恐らく
取消し）する手段を有することである。

【０２２４】スティングは次のことによって、プログラ
マがスペキュラティブ・アプリケーションを書くことを
可能とする。

【０２２５】１．ユーザがスレッドの優先順位を明示的
にプログラムすることを可能とする。

【０２２６】２．他のスレッドが完了したとき、あるス
レッドがウエイトできるようにする。

【０２２７】３．スレッドが他のスレッドを終了させる
ことを可能とする。

【０２２８】優先順位をプログラムできるので、有望な
タスクはそうでないものより先に実行することができ
る。タスクの組の中で最初に終了するタスクαは、その
終了の際、ブロックされているスレッドをどれでも目覚
めさせることができる。この機能によって、スティング
はＯＲ並列の有用な形態をサポートできる。タスクα
は、そのタスクの組の中の他のタスクはすべて、それら
の結果が不要であると確定されたなら、終了させること
ができる。しかし、スティングを用いた理論的計算は、
不要なタスクによってもたらされたノンローカルな副作
用を取消すことはできないであろう。このシステムは基
本的な逆戻りのメカニズムは提供しない。

【０２２９】ｗａｉｔ−ｆｏｒ−ｏｎｅコンストラクト
を実現することを考える。このオペレータは、並行して
この引数のリストを評価し、その最初の引数によって生
成された値を復帰させ、終了する。従って、表現（ｗａ
ｉｔ−ｆｏｒ−ｏｎｅａ₁ａ₂．．．ａ₁．．．
ａ_n）においてａ₁からｖが生じた場合、この表現はｖ
を復帰させ、そして、プログラマが必要とするなら、残
っているすべてのａ_j，ｊ≠１の評価を終了する。

【０２３０】ＡＮＤ並列を実現したｗａｉｔ−ｆｏｒ−
ａｌｌコンストラクトの仕様の同様である。これも並行
してその引数を評価する。ただしすべての引数を終った
ときのみ真を復帰させる。従って表現（ｗａｉｔ−ｆｏ
ｒ−ａｌｌａ₁ａ₂．．．ａ₁．．．ａ_n）は、この
表現を実行するスレッドはすべてのａ₁が終るまでブロ
ックされているので、障壁同期化ポイントとして機能す
る。このオペレーションの実現は、スペキュラティブｗ
ａｉｔ−ｆｏｒ−ｏｎｅオペレーションの実現と非常に
似ている。

【０２３１】ＴＣはこれらのオペレーションを、共通プ
ロシージャであるｂｌｏｃｋ−ｏｎｓｅｔを用いて実現
する。スレッドおよびＴＣＢは、この機能をサポートす
るように定義されている。例えば、ＴＣＢ構造体に関連
しているのは、ＴＣＢの関連するスレッドが再開できる
前に終了しなけらばならない、グループ内のスレッドの
数に関する情報である。

【０２３２】ｂｌｏｃｋ−ｏｎ−ｓｅｔは、スレッドの
リストとカウントを取る。これらのスレッドは、上述し
たｗａｉｔ−ｆｏｒ−ｏｎｅオペレーションおよびｗａ
ｉｔ−ｆｏｒ−ａｌｌオペレーションの引数に対応して
いる。カウントの引数は、現在のスレッド（すなわち、
ｂｌｏｃｋ−ｏｎ−ｓｅｔを実行しているスレッド）が
再開を認められる前に終了しなければならないスレッド
の数を表している。この数が１の場合、結果はｗａｉｔ
−ｆｏｒ−ｏｎｅを実現したものであり、上記数がｎの
場合、結果はｗａｉｔ−ｆｏｒ−ａｌｌの実現である。

【０２３３】組の中のスレッドＴ_gと、Ｔを待つべき現
在のスレッド（Ｔ_w）との関係は、下記のものに対する
参照を含むデータ構造（スレッド・バリア（ＴＢ）と呼
ばれる）内で維持される。

【０２３４】１．Ｔ_wのＴＣＢ２．Ｔ_g上でブロックされている他のウエイターのＴＢ
（存在する場合）ｂｌｏｃｋ−ｏｎ−ｓｅｔを定義する
プログラムを、図１２に示す。

【０２３５】次のコール（ｂｌｏｃｋ−ｏｎ−ｓｅｔｍＴ₁Ｔ₂．．．
Ｔ_n）は現在のスレッド（Ｔと言う）に、ｍ個のＴ₁（ｍ≦
ｎ）が終了したときアンプロックさせる。これらＴ₁の
それぞれは、それらのウエイターのチェーン内にＴに対
する参照を有している。

【０２３６】アプリケーションはｂｋｏｃｋ−ｏｎ−ｓ
ｅｔを、アプリケーションが終了したときａ₁によって
起動されるプロシージャｗａｋｅｕｐ−ｗａｉｔｅｒｓ
と共に用いる。ｗａｋｅｕｐ−ｗａｉｔｅｒｓは、その
スレッド引数内のウエイター・スロットから、連鎖状の
ウエイターのリストを調べる。ウエイト数がゼロになる
ウエイターは、いずれかのＶＰのレディー待ち行列に挿
入される。ＴＣは、スレッドＴが終了したときはいつも
ｗａｋｅｕｐ−ｗａｉｔｅｒｓを起動する（例えば、Ｔ
が終了したとき、または異常に存在するときはいつ
も）。Ｔの終了を待っているスレッドは、すべてこのよ
うにしてリスケジュールされる。

【０２３７】これは２つのプロシージャが与えられる
と、ｗａｉｔ−ｆｏｒ−ｏｎｅは次のように簡単に定義
することができる。

【０２３８】（ｄｅｆｉｎｅ（ｗａｉｔ−ｆｏｒ−ｏｎｅ．ｂｌｏｃｋ−ｇｒｏｕｐ）（ｂｌｏｃｋ−ｏｎ−ｇｒｏｕｐ１ｂｌｏｃｋ−ｇｒｏｕｐ）（ｍａｐｔｈｒｅａｄ−ｔｅｒｍｉｎａｔｅｂｌｏｃｋ−ｇｒｏｕｐ）Ｔがｗａｉｔ−ｆｏｒ−ｏｎｅを実行する場合、それは
ｂｌｏｃｋ−ｇｒｏｕｐ引数内のすべてのスレッド上で
ブロックする。Ｔが再開されるとき、Ｔは、利用できる
いずれかの仮想プロセッサのＴＰＭ内のレディー待ち行
列に配置される。Ｔの再開のとき実行されるマップ・プ
ロシージャは、そのグループ内のすべてのスレッドを終
了させる。

【０２３９】スティングのプロシージャｗａｉｔ−ｆｏ
ｒ−ａｌｌは、このオペレーションを省略できる。それ
は、そのブロック・グループ内のすべてのスレッドは、
このオペレーションを実行するスレッドが再開される前
に、終了することが保証されているからである。

【０２４０】スティングは、８プロセッサのＳｉｌｉｃ
ｏｎＧｒａｐｈｉｃｓＰｏｗｅｒＳｅｒｉｅｓ
（ＭＩＰＳＲ３０００）と、１６プロセッサのＳｉｌ
ｉｃｏｎＧｒａｐｈｉｃｓＣｈａｌｌｅｎｇｅ（Ｍ
ＩＰＳＲ４４００）の両方において実現した。両マシ
ンは、共有（キャッシュ・コヒーレント）マルチプロセ
ッサである。この抽象物理的マシン構成では、物理的プ
ロセッサはライトウエイトのＵｎｉｘスレッドにマッピ
ングされる。マシン内の各プロセッサは、このようなス
レッドの１つをランさせる。

【０２４１】以上、コンピュータ・ソフトウエア・アー
キテクチャの望ましい実施例について記述し、説明した
が、当業者にとって明らかなように、本発明の広範な原
理および趣旨から逸脱することなく、種々の変形や変更
を加えることは可能である。

【０２４２】

【発明の効果】以上説明したように本発明によれば、高
度並列マルチプロセッサ／マルチコンピュータ・システ
ムを制御するための、現代のプログラミング言語に対す
る非常に効率の良いサブストレートとして役立つコンピ
ュータのオペレーティング・システム・アーキテクチャ
を用いた高度並列コンピュータ・システムの制御方式が
得られる。

【０２４３】更に本発明によれば、カスタマイズ可能な
仮想マシンにもとづく非同期の計算のためのソフトウエ
ア・アーキテクチャを用いた高度並列コンピュータ・シ
ステムの制御方式が得られる。

【０２４４】また本発明によれば、仮想プロセッサ上で
ファーストクラスのオブジェクトとしてライトウエイト
・スレッドをサポートするソフトウエア・アーキテクチ
ャを用いた高度並列コンピュータ・システムの制御方式
が得られる。

【０２４５】更に本発明によれば、カスタマイズ可能な
ポリシー・マネージャを、特にユーザ・レベルに含むソ
フトウエア・アーキテクチャを用いた高度並列コンピュ
ータ・システムの制御方式が得られる。

【０２４６】また、本発明によれば、カスタマイズ可能
な仮想トポロジーを含むソフトウエア・アーキテクチャ
を用いた高度並列コンピュータ・システムの制御方式が
得られる。

【０２４７】更に本発明によれば、スレッド吸収、遅延
ＴＣＢ割り当て、ならびに記憶装置共有の場所としての
スレッド・グループを含むソフトウエア・アーキテクチ
ャを用いた高度並列コンピュータ・システムの制御方式
が得られる。

【０２４８】また本発明によれば、多様な形態のポート
を含むソフトウエア・アーキテクチャを用いた高度並列
コンピュータ・システムの制御方式が得られる。

【０２４９】更に本発明によれば、上述のようなソフト
ウエア・アーキテクチャを用いて制御されるコンピュー
タ・システムが得られる。

【図面の簡単な説明】

【図１】本発明の一実施例によるソフトウエア・アーキ
テクチャを用いた制御方式を示すブロック図である。

【図２】図１の抽象物理的マシンおよび仮想マシンを示
す図である。

【図３】本発明のオペレーティング・システムの抽象ア
ーキテクチャを示す概略ブロック図である。

【図４】本発明で用いるスレッドの状態およびＴＣＢの
状態の遷移を示す図である。

【図５】本発明で用いる記憶装置の構成を表す概略図で
ある。

【図６】本発明で用いるスレッドのプログラミングを説
明するためのプログラムを示す図である。

【図７】本発明で用いる物理的プロセッサの２Ｄメッシ
ュ上で多重化された仮想プロセッサの３Ｄメッシュを生
成するプログラムを説明するための図である。

【図８】本発明で用いるコンテクスト・スイッチを始動
するプログラムを示す図である。

【図９】本発明で用いるコンテクスト・スイッチを終了
するプログラムを示す図である。

【図１０】本発明で用いる新しいスイッチを開始するプ
ログラムを示す図である。

【図１１】本発明で用いるグラニュラリティの細かい適
応並列ソート・アルゴリズムのための最上位のプロシー
ジャのプログラムを示す図である。

【図１２】本発明で用いるｂｌｏｃｋ−ｏｎ−ｓｅｔを
定義するプログラムを示す図である。

【符号の説明】

１０抽象物理的マシン１１物理的トポロジー１２抽象物理的プロセッサ１３仮想プロセッサ・コントローラ１４仮想マシン１５仮想プロセッサ・ポリシー・マネージャ１６仮想プロセッサ１７スレッド・コントローラ１８スレッド１９スレッド・ポリシー・マネージャ２０，２０′ 仮想トポロジー２４仮想マシン／アドレス空間２６グローバル記憶プール２８グローバル共有オブジェクト３０ルート環境３１スタック３２ＴＣＢ３３ローカル・ヒープ３５グローバル・ヒープ３６遅延３８スケジュール４０評価４２吸収４４確定４６初期化４８レディー５０ラン５２ブロック５４保留５６終了

Claims

【特許請求の範囲】

【請求項１】高度並列コンピュータ・システムを制御
するためのソフトウエア・アーキテクチャを用いた高度
並列コンピュータ・システムの制御方式において、一つのマイクロカーネルを形成する複数の抽象物理的プ
ロセッサを備えた複数の抽象物理的マシンと；前記複数
の抽象物理的プロセッサに付随し、複数の仮想プロセッ
サを備えた複数の仮想マシンと；前記複数の仮想プロセ
ッサ上でランする複数のスレッドを備えた複数のスレッ
ド・グループとを備え、前記複数の仮想プロセッサおよび前記複数のスレッドは
ファーストクラスのオブジェクトであることを特徴とす
るソフトウエア・アーキテクチャを用いた高度並列コン
ピュータ・システムの制御方式。
【請求項２】前記複数の仮想プロセッサは仮想トポロ
ジーにおいて接続されていることを特徴とする請求項１
記載のソフトウエア・アーキテクチャを用いた高度並列
コンピュータ・システムの制御方式。
【請求項３】前記マイクロカーネルのポリシーを管理
するマイクロカーネル・ポリシー・マネージャはユーザ
がカスタマイズできることを特徴とする請求項１記載の
ソフトウエア・アーキテクチャを用いた高度並列コンピ
ュータ・システムの制御方式。
【請求項４】前記複数の仮想プロセッサは、前記複数
のスレッドのポリシーを管理する複数のスレッド・ポリ
シー・マネージャのうち、ユーザが、どのスレッド・ポ
リシー・マネージャをカスタマイズできるかを含むこと
を特徴とする請求項１記載のソフトウエア・アーキテク
チャを用いた高度並列コンピュータ・システムの制御方
式。
【請求項５】前記複数のスレッド、前記複数の仮想プ
ロセッサ、ならびに前記複数の抽象物理的プロセッサ
は、機能的に連携し、仮想トポロジーを構築することを
特徴とする請求項１記載のソフトウエア・アーキテクチ
ャを用いた高度並列コンピュータ・システムの制御方
式。
【請求項６】前記仮想トポロジーはユーザがカスタマ
イズできることを特徴とする請求項５記載のソフトウエ
ア・アーキテクチャを用いた高度並列コンピュータ・シ
ステムの制御方式。
【請求項７】前記複数のスレッドは、それらのそれぞ
れの実行コンテクストから分離でき、実行コンテクスト
の遅延された割り当てを許すことを特徴とする請求項１
記載のソフトウエア・アーキテクチャを用いた高度並列
コンピュータ・システムの制御方式。
【請求項８】複数の多様な形態のポートをさらに備え
たことを特徴とする請求項１記載のソフトウエア・アー
キテクチャを用いた高度並列コンピュータ・システムの
制御方式。
【請求項９】前記複数の多様な形態のポートはそれぞ
れファーストクラスのオブジェクトであることを特徴と
する請求項８記載のソフトウエア・アーキテクチャを用
いた高度並列コンピュータ・システムの制御方式。
【請求項１０】前記複数のスレッドは、一般データと
複合データとを含むメッセージを送ることを特徴とする
請求項８記載のソフトウエア・アーキテクチャを用いた
高度並列コンピュータ・システムの制御方式。
【請求項１１】前記複数のスレッドは、それらのそれ
ぞれのローカル・スタックおよびヒープを、他の複数の
スレッドとは独立に、ガーベッジ・コレクトすることを
特徴とする請求項１記載のソフトウエア・アーキテクチ
ャを用いた高度並列コンピュータ・システムの制御方
式。
【請求項１２】前記複数のスレッド・グループはそれ
らのそれぞれの共有ヒープを、無関係の複数のスレッド
・グループとは独立に、集めることを特徴とする請求項
１記載のソフトウエア・アーキテクチャを用いた高度並
列コンピュータ・システムの制御方式。
【請求項１３】前記複数の仮想プロセッサは前記複数
の抽象物理的プロセッサ上に多重化されていることを特
徴とする請求項１記載のソフトウエア・アーキテクチャ
を用いた高度並列コンピュータ・システムの制御方式。
【請求項１４】前記複数の仮想プロセッサ、前記複数
の仮想マシン、ならびに前記複数のスレッドは、持続性
メモリ内に存在することを特徴とする請求項１記載のソ
フトウエア・アーキテクチャを用いた高度並列コンピュ
ータ・システムの制御方式。
【請求項１５】前記複数の抽象物理的プロセッサはフ
ァーストクラスのオブジェクトであることを特徴とする
請求項１記載のソフトウエア・アーキテクチャを用いた
高度並列コンピュータ・システムの制御方式。
【請求項１６】前記複数の仮想マシンはファーストク
ラスのオブジェクトであることを特徴とする請求項１５
記載のソフトウエア・アーキテクチャを用いた高度並列
コンピュータ・システムの制御方式。
【請求項１７】前記複数の抽象物理的マシンおよび前
記複数のスレッド・グループはファーストクラスのオブ
ジェクトであることを特徴とする請求項１６記載のソフ
トウエア・アーキテクチャを用いた高度並列コンピュー
タ・システムの制御方式。
【請求項１８】各々が仮想プロセッサ・コントローラ
と仮想プロセッサ・ポリシー・マネージャとを有し、物
理的トポロジーにおいて接続された複数の抽象物理的プ
ロセッサと；各々が、仮想アドレス空間と複数の仮想プ
ロセッサとを有する複数の仮想マシンと；を備えたコン
ピュータ・システムであって、前記複数の仮想マシンの各々の前記複数の仮想プロセッ
サは、前記仮想プロセッサ・コントローラ及び前記仮想
プロセッサ・ポリシー・マネージャに応答して実行し、
かつ、スレッド・コントローラとスレッド・ポリシー・
マネージャとを有し、前記複数の仮想プロセッサは仮想
トポロジーにおいて接続され、各仮想プロセッサはそれ
ぞれの抽象物理的プロセッサにマッピングされており、前記コンピュータ・システムは、前記スレッド・コント
ローラと前記スレッド・ポリシー・マネージャとに応答
する前記複数の仮想プロセッサ上でランする複数のスレ
ッドを、更に、備えていることを特徴とするコンピュー
タ・システム。
【請求項１９】前記複数の仮想プロセッサは前記複数
の抽象物理的プロセッサ上で多重化されていることを特
徴とする請求項１８記載のコンピュータ・システム。
【請求項２０】更に、持続性メモリを備え、この持続
性メモリには、前記複数のスレッド、前記複数の仮想プ
ロセッサ、ならびに前記複数の仮想マシンを含むオブジ
ェクトが存在することを特徴とする請求項１８記載のコ
ンピュータ・システム。