JPH09237203A

JPH09237203A - 対称マルチプロセッサアーキテクチャ上のコードプロファイルシステム及び方法

Info

Publication number: JPH09237203A
Application number: JP8332752A
Authority: JP
Inventors: Chuck Summers; チァク、サマズ
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1995-11-28
Filing date: 1996-11-28
Publication date: 1997-09-09
Anticipated expiration: 2016-11-28
Also published as: JP3337926B2; DE69614645T2; US6401240B1; DE69614645D1; EP0777181B1; EP0777181A1; US5838976A

Abstract

(57)【要約】【課題】本発明は、プロファイラ技術分野において、プ
ログラマに対して、ＣＰＵ時間の完全な分析、及びＳＭ
Ｐコンピュータ上で実行するマルチスレッド化プロセス
のその他の性能メトリックを提供することを目的とす
る。【解決手段】本発明のプロファイラは、あるコード領域
の前及び後に性能メトリックをスレッドにサンプルさせ
るために動的計測を行う。さらに、このプロファイラ
は、親スレッドをその子スレッドと共に記録するために
並列サポートレイヤへの延長部分を使用する。各スレッ
ドは、測定した性能メトリック、即ちデルタを、その領
域及びその親領域に相当するメモリの一つ又は複数のセ
ル内に記憶する。このプロセスが完了するとき、プロフ
ァイラはメモリ記憶エリアを通してスキャンし、特別の
コードレベルのそれぞれに対してデルタを合計する。そ
れから、この結果は、スレッド又はプロセスレベルで分
析することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にはコンピ
ュータプログラミングに属し、特に、対称マルチプロセ
ッサコンピュータ上で実行するプロセスについての性能
メトリックを得るためのコードプロファイラーに属す
る。

【０００２】

【従来の技術】現代のコンピュータシステムはしばし
ば、一つのプロセスの異なる部分、または同じ部分を同
時に実行することのできる複数の中央処理ユニット（Ｃ
ＰＵ）を有している。このようなコンピュータは、対称
マルチプロセッサ（ＳＭＰ）システムと呼ばれている。
このようなコンピュータ上で実行する単一プロセスは、
異なるＣＰＵで同時に実行する複数の制御スレッドを有
することができる。

【０００３】ＳＭＰシステムのために設計するとき、或
いはＳＭＰシステムにソフトウエアを移植するとき、こ
のシステムを完全に利用することができるようにコード
を最適化することが有利である。例えば、プログラマ
は、プロセス計算がスレッド間でバランスするようにコ
ードを最適化することを望んでいる。同様に、プログラ
マは、特別のコード領域で動作するＣＰＵの最適数を求
める。

【０００４】これらの目的を達成するために、プログラ
マは、プロセスの働きを分析しかつ性能を妨げる障害を
取り除くためにコード”プロファイラー”を使用する。
このようなプロファイラーは典型的には、特別のコード
領域に対して、プロセスによって使用されるＣＰＵの数
及びＣＰＵ時間、及びその他の性能情報を決定すること
によって動作する。プログラマはそれから、プロセスの
構造及びオペレーションを修正するためにプロファイラ
ーの結果を使用する。

【０００５】例えば、プログラマは、ＣＰＵ時間を、実
世界の、即ち、壁掛け時計の、プロセス実行に使用され
る時間と比較する。理想的には、平行処理比、壁掛け時
計時間に対するＣＰＵ時間の比は、プロセスに利用可能
のＣＰＵの数に等しい。もしこの比が、ＣＰＵの数より
も小さいならば、そのときシステムオーバヘッド又は性
能障害によりプロセス及びそのスレッドは遅くなってい
る。

【０００６】しかしながら、ある従来技術のプロファイ
ラーは、スレッド毎をベースにしてのプロセスの働きを
洞察する力を、プログラマに与えはしない。例えば、あ
るプロファイラに付随してＣＰＵ利用を決定する非常に
単純な方法は、一つのコード領域の前及び後の時間をサ
ンプルするために、ボードタイマー上のＣＰＵを使用す
ることである。この方法は、このプロセスがそのコード
領域上で費やした時間を決定する。しかしながら、この
方法は、異なるＣＰＵ上で対称的に実行するスレッドに
よって果たされる仕事量を評価することはできない。即
ち、このプロファイラは、タスク上で費やされた壁掛け
時計時間を報告するが、他のプロセッサ上で実行するス
レッドによって使用されるＣＰＵ時間を報告しない。そ
れ故、この単純な方法によって返される情報によって
は、プログラマは、一つのプロセスのどの部分が、真に
コンピュータシステムの時間の大部分を占めているのか
を決定することはできない。

【０００７】ある現代のプロファイラは、スレッド毎を
ベースにしてプロセス性能を測定することを試みる。し
かしながら、このようなプロファイラは、別の問題を有
している。あるプロファイラは、同時スレッドそれぞれ
のために性能情報を保持する大量のデータスペースを必
要とする。他のものは、正確な結果を生じるのを保証す
るために極端な同期化を必要とする。さらに他のプロフ
ァイラは、多数のプロセッサを持つシステムに単純には
釣り合わない。これらのタイプのプロファイラは、後に
より詳細に説明する。

【０００８】

【発明が解決しようとする課題】それ故、プロファイラ
技術分野には、プログラマに対して、ＣＰＵ時間の完全
な分析、及びＳＭＰコンピュータ上で実行するマルチス
レッド化プロセスのその他の性能メトリックを提供する
必要性がある。特に、プロファイルプロセスの単一動作
の間に、プロセス及びスレッドレベルで性能メトリック
を正確に決定するプロファイラに対する必要性がある。

【０００９】

【課題を解決するための手段】前記及び他の必要性は、
ＳＭＰコンピュータシステム上でプロセスを実行する全
てのスレッドに対して性能メトリックを正確に測定する
プロファイラによってかなえられる。このプロファイラ
は、あるコード領域の前及び後に性能メトリックをスレ
ッドにサンプルさせるために動的計測を行う。さらに、
このプロファイラは、親スレッドをその子スレッドと共
に記録するために並列サポートレイヤへの延長部分を使
用する。各スレッドは、測定した性能メトリック、即ち
デルタを、その領域及びその親領域に相当するメモリの
一つ又は複数のセル内に記憶する。このプロセスが完了
するとき、プロファイラはメモリ記憶エリアを通してス
キャンし、特別のコードレベルのそれぞれに対してデル
タを合計する。それから、この結果は、スレッド又はプ
ロセスレベルで分析することができる。このようにし
て、プロファイラは、コンピュータシステム上で実行す
るいかなるプロセスによっても動作するよう適合させる
ことができる。

【００１０】本発明の技術的利点は、スレッド毎のレベ
ルでコード領域内の全ての性能メトリックを評価する対
称マルチプロセッサコンピュータシステム上のコードプ
ロファイル方法にある。

【００１１】本発明の別の技術的利点は、０〜"n"スレ
ッドの平行処理比を生じるコードプロファイル方法にあ
る。

【００１２】本発明のさらに別の技術的利点は、プロセ
スの単一動作後プロセス全体の性能メトリックの合計を
提供することにある。

【００１３】本発明のさらに別の技術的利点は、スレッ
ド間の同期化及びデータ交換を最小にするコードプロフ
ァイル方法にある。

【００１４】本発明のさらに別の技術的利点は、スレッ
ドベースで維持され、或いはアクセスされるが、スレッ
ド間で同期化を必要としない読み出し専用タイマー／カ
ウンタと共に動作するコードプロファイル方法にある。

【００１５】本発明のさらに別の技術的利点は、大きな
数のスレッド及びプロセッサとよく釣り合うコードプロ
ファイル方法にある。

【００１６】前述のことは、以下の本発明の詳細な説明
をより良く理解することができるように、本発明の特徴
及び技術的利点をむしろ広く概観した。本発明の特許請
求の範囲の主題を構成する本発明の別の特徴及び利点に
ついては、後述する。開示された概念及び特別の形態
は、本発明の同じ目的を達成するために変更し即ち他の
構成を設計する基礎として容易に利用することができる
ということが当業者には認められよう。このような等価
な構成は、特許請求の範囲に記載の本発明の精神及び範
囲から離れないということがまた、当業者には認識され
るであろう。

【００１７】

【発明の実施の形態】本発明及びその利点のより完全な
理解のために、添付図面と関連した次の説明を今参照す
る。

【００１８】本発明は、コンピュータシステム上で実行
するプロセスをプロファイルする。”プロセス”は、特
別のインストラクションシーケンスを実行するプログラ
ム又はプログラムの一部である。このように、プロセス
はしばしば、アプリケーション又は他の共通タイプのプ
ログラムと等価である。

【００１９】一つのプロセスは、複数のスレッドから構
成することができる。スレッドは、一つのプロセスを協
同的に目標まで実行するアクティビティである。言い換
えると、スレッドは、プロセスの問題解決のために、他
のスレッドと共同して動作する一つの実行要素である。

【００２０】このアプリケーションはしばしば、コー
ド”領域”を参照する。一つの領域は、単にルーチン或
いはループのようなコードの一つのセクションである。
コード領域は、他の領域内にネストにすることができ
る。この場合、この取り囲み領域が”親”であり、ネス
トにされた領域が”子”である。

【００２１】一つのスレッドは、コード領域を対称的
に、或いは非対称的に実行することができる。対称実行
は、複数スレッドが共有又は非共有データのいずれかに
基づいて同じコード領域を同時に実行するとき生じる。
対称スレッドは、親スレッドが、あるコード領域に達す
るときいくつかの子スレッドに分割されるときに形成さ
れる。コード領域にある間のこの実行は、”対称パラレ
リズム”と呼ばれる。コード領域が実行された後、スレ
ッドは、一緒にもとに結合される。これに対して、非対
称実行は、共有又は非共有データに基づき異なるコード
領域を独立して実行するスレッドを特徴としている。

【００２２】さらに、スレッドは、”直接”又は”間
接”パラレリズムで並列領域を実行することができる。
直接パラレリズムは、並列領域を実行する子スレッド
が、事実上親と同じスレッドであるときに生じる。間接
パラレリズムは、並列領域を実行する子スレッドが親の
ために動作しているときに生じる。

【００２３】さらに、この論議は時には、スレッドを、
ある”レベル”、例えば、親レベルで動作するものとし
て参照する。スレッドのレベルは、ルーチン又はループ
のようなスレッドによって実行されている制御フロー構
成がいかに深く他の構成内にネストにされているのかに
相当する。例えば、ルーチンを実行する親スレッドは、
ルーチン内のループを実行するために子スレッドを作成
することができる。この例において、子スレッドは、ル
ープ及びルーチンレベルの両方で動作する一方、親スレ
ッドはルーチンレベルで動作する。

【００２４】本発明のプロファイラによって、プログラ
マは、スレッドが種々のレベルのプロセスを実行すると
きプロセス及びそのスレッドの性能メトリックを可視化
することが可能になる。性能メトリックは、使用される
ＣＰＵ及び壁掛け時計時間、データ及びインストラクシ
ョンキャッシュミス、及びインストラクションカウント
のような情報を包含している。概観した原理を繰り返し
適用することにより、本発明のプロファイラは、これら
のメトリックのそれぞれを各レベルのプロセスでプログ
ラマに利用可能にする。

【００２５】しかしながら、この論議の残りは、主とし
てＣＰＵ及び壁掛け時計時間に焦点を合わせる。壁掛け
時計時間は、実世界時間である。これに対して、ＣＰＵ
時間は、プロセス又はスレッドが実行するのに必要とす
る時間である。例えば、４つのスレッドを有するプロセ
スは、壁掛け時計時間の１０秒で実行することができる
が、しかし事実上ＣＰＵ時間の４０秒（スレッド毎に１
０秒）を必要とする。壁掛け時計時間に対するＣＰＵ時
間の比は、”並行処理比”と呼ばれる。並行処理比は、
０〜"n"スレッドの値を有することができる。本発明を
使用することによって、プログラマ又は他の観測者は、
プロセスのいかなるレベルで実行するスレッドであって
もそれぞれ又はそれらの全てによって、どれだけのＣＰ
Ｕ時間が使用されたかを正確に決定することができる。
本発明の動作を説明する最良の方法は、それを従来技術
と対比することである。

【００２６】図２は従来技術のコードプロファイラを示
しており、かつこれは、異なるスレッドを評価すること
によって先に従来技術の説明において述べた単純な構成
を改良することを試みるものである。図２は、コード領
域２１０、４つのスレッド２１１−２１４、及びデータ
セル２２２を有するメモリ記憶エリア２２０を包含して
いる。４つのスレッド２１１ー２１４のみが図２及び他
の図に示されているけれども、一つのプロセスは、いか
なる数のスレッドも有することができるということを認
めることが重要である。

【００２７】総合して、４つのスレッド２１１−２１４
は領域２１０を対称的に実行する。各スレッドは、相当
するＣＰＵ時間デルタ２２４−２２７を有している。各
デルタは、コード領域２１０上で動作する相当するスレ
ッド２１１−２１４が費やしたＣＰＵクロック時間を表
している。スレッドは典型的には、コード領域前及び後
のＣＰＵタイマーをサンプルすることによってそのデル
タを決定する。このデルタは、サンプル間の時間の差で
ある。

【００２８】データセル２２２は簡単には、デルタ値を
保持することのできるメモリ記憶エリア２２０内のメモ
リアドレスである。各スレッド２１１−２１４はセル２
２２内の値にアクセスすることができる。しかしなが
ら、一つのスレッドは、該スレッドがそこに包含された
値を変更可能にする前にセル２２２に排他的アクセスが
得られなければならない。排他的アクセスを得るため
に、一つのスレッドは、セル２２２をロックしなければ
ならない。このロックプロセスは、同期化と呼ばれる。
一つのスレッドがセル２２２の更新を完了するとき、こ
のスレッドは、このロックを解放する。

【００２９】動作において、図２のプロファイラは、各
スレッド２１１−２１４がコード領域を実行する前及び
後にＣＰＵクロックをサンプルする各スレッド２１１ー
２１４を示している。それから、各スレッドは、サンプ
ルの時間差、即ちデルタを、セル２２２内の値に加え
る。全てのスレッドが完了するとき、セル２２２は領域
２１０を実行するために必要とされる全ＣＰＵ使用時間
を包含することになる。

【００３０】例えば、図２の各スレッドが１０ＣＰＵ秒
のデルタを有していると仮定する。完了したとき、セル
２２２内に包含される全ＣＰＵ時間は、４０秒である。
このように、セル２２２は、測定コード領域を実行する
ときに全てのスレッドによって使用される全ＣＰＵ時間
を包含している。

【００３１】図２の方法の利点は、全てのスレッドが同
じセル２２２を使用するので、スレッドタイミングを記
憶するために要求されるメモリスペースが非常に小さい
ということである。しかしながら、相当する欠点は、セ
ル２２２は共有結合メモリ内に無ければならないという
ことである。

【００３２】図２のプロファイラの大きな欠点は、それ
が良く釣り合っていないということである。この欠点
は、スレッド間で要求される極端な同期化によるもので
ある。特に、各スレッドは、セル２２２への排他的アク
セスを得る前にかなりの時間待つ必要があるかもしれ
ず、それによって、プロセス及びプロファイラを遅くす
る。もしこのプロファイラが、多数のＣＰＵ又はスレッ
ドを持つシステム上で実行されるならば、この同期化遅
延は、この方法によるプロファイルの使用を不可能にす
る。この方法を使用するプロファイラに対して、マルチ
スレッド化プロセスに対する壁掛け時計時間の非線形的
増加が予想される。

【００３３】図３は図２のプロファイラのスケーリング
の困難性を解決する他の先行技術を開示する。図３は４
つのスレッド３１０ー３１３と４つの対応メモリ記憶エ
リア３３０ー３３３を示す。各スレッド３１０ー３１３
はデルタ３２６ー３２９を持ち、そして各メモリ記憶エ
リアは蓄積セル３４０ー３４３をもつ。

【００３４】図３のプロファイラにおいて、各スレッド
は異なる蓄積セルにおいてそのデルタを蓄積する。プロ
グラマー（もしくは他の観測者）は、コード領域により
使用できる全ＣＰＵ時間を得るためにセル３４０−３４
３を合計するためにプロファイラを使用でき、あるいは
スレッドのデルタ（ＣＰＵ時間）を個々に考慮できる。
例えば、各デルタ３２６−３２９が１０であれば、その
時各蓄積セル３４０−３４３は１０であり、そして領域
を実行するのに使用する全ＣＰＵ時間は４０秒である。

【００３５】図３のプロファイラは、（図２のプロファ
イラが必要とするような）共有結合メモリを必要とせ
ず、そして図２に関して上記で議論したような同期およ
び測定可能性の問題を受けない。このプロファイラは、
しかし、デルタ蓄積のためにスレッド当たり１メモリ蓄
積を必要とする。

【００３６】加えるに、図３のプロファイラは、並列サ
ブ領域を含む領域にまたがる時間を把握しない。図４
は、この欠点を示す。加えるに、この詳細が本発明を理
解するのにも必要なので、図４は先の図より詳細に示
す。

【００３７】図４は、スポーン（卵）ポイント４１６に
おいて４つの子スレッドを生む親スレッドである。子ス
レッド４１２は直接パラレリズム(paralelleism)で実行
する親スレッド４１０であることに注目。接続ポイント
４１８において、子スレッド４１２−４１５は実行を終
了し、そして親スレッド４１０に戻って加わえられる。
各スレッド４１０、４１２−４１５は関連するデルタ４
１９−４２３を持つ。デルタ４１９は親スレッド４１０
に対応し、デルタ４２０は子スレッド４１２に対応する
ことに注目。

【００３８】各スレッド４１０、４１２−４１５は、関
連するメモリ記憶エリア４２５−４２６を持つ。記憶エ
リア４２５のような各メモリ記憶エリアは、プロセスに
おける各測定領域のための少なくとも２つのメモリセル
を持つ。図４において、ただ４つのセルのみが各スレッ
ド記憶エリアに示されている。例えば、セル４３０と４
３１のような２つのセルは親（コーラー）領域に関係
し、一方、セル４３２、４３３の２つは子領域（コーリ
ー）に関係する。各２つのセルにおいて、一つのセル４
３０、４３２は“子連れ”スレッドのデルタを持つ、即
ち、任意の測定および実行領域のデルタを含む。他のセ
ル４３１、４３３は“子なし”のスレッドのデルタを持
つ、即ち、子領域を実行するスレッドのデルタを含まな
い。

【００３９】親スレッドは一連のＣＰＵ実行時間のうち
５秒を必要とすると仮定する。また、並列領域を実行す
るＣＰＵ時間のうち１０秒を必要とすると仮定する。ポ
イント４３５において、親スレッド４１０はＣＰＵタイ
マからの開始サンプルをとる。スポーンポイント４１６
において、親スレッド４１０は子スレッド４１２−４１
５を生む。ポイント４３６において、子スレッド４１２
−４１５は各々それぞれのＣＰＵタイマをサンプルす
る。ポイント４３７において、子スレッド４１２−４１
５は並列領域を終え、そのＣＰＵタイマをサンプルし、
そして各々のデルタ４２０−４２３を計算する。

【００４０】それから、各子スレッド４１２−４１５は
適切なセルにおいてそのデルタを蓄積する。このように
して、スレッド４１２は１０秒のデルタ４２０をセル４
３２および４３３に蓄積する（これらのセルは、スレッ
ド４１２がなんらかの子領域を実行しないので同じ値で
ある）。他の子スレッド４１３−４１５は自身に対等す
るセルにおけるそのデルタ４２１−４２３を蓄積する
が、その親領域に対応するセルにおいてではない、とい
うのは、子スレッド４１３−４１５はどの親スレッドが
それを生んだかを知らない。例えば、スレッド４１３は
そのデルタをセル４３８と４３９に蓄積する。しかし、
スレッド４１３はどのスレッドがそれを生んだかを知る
方法をもたず、そして、それゆえに、親領域に対応する
セル４４０、４４１のデルタを蓄積できない。

【００４１】最終的に、ポイント４４５において、親ス
レッド４１０はその実行を終了し、そして再びＣＰＵタ
イマをサンプルする。それから、スレッド４１０は、１
５秒のデルタ４１９をセル４３０に蓄積する。親スレッ
ドは、また、５秒の子なしのＣＰＵ時間をセル４３１に
蓄積する。

【００４２】プロセスが実行を終了した時、図４のプロ
ファイラは各スレッドとコード領域に対するデルタ値を
合計する。この例において、プロファイラは並列領域を
実行するための子スレッドにより使用されるＣＰＵ時間
の正しい値４０秒を測定する。しかし、プロファイラ
は、並列スレッドを含むコード領域を実行するための親
領域４１０により使用されるＣＰＵ時間の４５秒の代わ
りに、誤って１５秒を測定するであろう。親領域のため
のＣＰＵ時間は、３０秒誤っている。何故なら子領域
は、そのＣＰＵ時間に属すべき親領域を決定することが
できないからである。

【００４３】それ故に、図４のプロファイラは親スレッ
ド４１０により使用されるＣＰＵ時間を報告するのみで
ある。従って、スレッド４１０のレベルにおける並列処
理比（ＣＰＵ時間／壁掛け時計時間）は、１より大きく
はない。これは、システムの正しい並列動作を観測する
ためにプロファイルされたデータを使用する時の大きな
欠点である。

【００４４】本発明のプロファイラは、図１に示すよう
に、ある実行ポイントに到達した時に、スレッドが記憶
された機能を呼び戻すようにする技術を図４のプロファ
イラに結合する。この方法で、子領域は、その親領域を
決定することができる。以下の議論において、並列サポ
ートレイヤー（ＰＳＬ）が参照される。ＰＳＬは、コン
ピュータシステムにおける並列スレッドを位置付けする
ための手段である。ＰＳＬのオペレーションは、図５−
６の議論で十分に説明される。

【００４５】ＰＳＬを用いて動作する時および対称並列
スレッドを使用する時に、プロセスにより４つの異なる
実行到達ポイント、すなわち、スレッドが存在する。第
１ポイントは“スポーン以前”であり、それはプロセス
を要求する直前、即ち、スレッドが特定のコード領域を
実行するのを助けるための付加的スレッドを求めるもの
である。次のポイントは、“スポーン後”であり、それ
は、スレッドが位置付けされた直後であるがスレッドが
実行を開始される前に生じるものである。他のポイント
は、“接続（join) 前”であり、それはスレッドがその
実行を完了する直前に生じるものである。最終的に、ス
レッドは、“接続後”に到達すれば付加的スレッドがそ
の実行を完了し、そしてプロセスを要求するかもしくは
スレッドが残る時である。

【００４６】非並列領域は、２つの異なるポイントのみ
を持つ：“作成（creative) ”および“存在( ｅxist)
”である。作成は、スレッドが作成された直後に発生
する。存在は、作成されたスレッドがその実行を終了し
た時に発生する。

【００４７】図１は、本発明のプログラムの動作を示
す。図１は、スポーンポイント１１６において４つの子
スレッド１１２−１１５を生む親スレッド１１０を示
す。子スレッド１１２は直接パラレリズム（paralellei
sm) を実行する親スレッド１１０である。接続ポイント
１１８において、子スレッド１１２−１１５は実行を終
了し、そして親スレッド１１０に戻って結合される。各
スレッド１１０、１１２−１１５は関連するデルタ１１
９−１２３を持つ。デルタ１１９は親スレッド１１０に
対応し、一方、デルタ１２０は子スレッド１２０に対応
する。

【００４８】各スレッド１１０、１１２−１１５は関連
するメモリ記憶エリア１２５−１２８を持つ。記憶エリ
ア１２５と１２６のようなメモリ記憶エリアは、プロセ
スにおいて各測定領域のための４つのセルを持つが、図
１においては８つのセルのみが示されている。例えば、
メモリ記憶領域１２６は、親領域と関連する４つのセル
１４０−１４３と子領域と関連する４つのセル１４４−
１４７を含む。セル１４０と１４１は、親スレッド１１
０に代わってそれぞれ直接および間接的パラレリズムを
実行するスレッド１１３により消費されるＣＰＵ時間を
蓄積する。セル１４２と１４３は、親スレッド１１０に
代わって実行するスレッド１１３により費やされるそれ
ぞれの子連れおよび子なしＣＰＵ時間を蓄積する（図４
に関連して述べたように）。このように、セル１４４−
１４７は、セル１４４−１４７がスレッド１１３と関連
することを除いて、セル１４０−１４３と同じ情報を保
持する。

【００４９】親スレッド１１０が以前のスポーンポイン
ト１５０に到達する時、ＰＳＬスレッド１１０は子スレ
ッド１１２−１１５を位置付ける。親スレッド１１０
は、また、子スレッドが、どの親がそれを生み出したか
を知るようにＰＳＬ６１８によりそれ自身を記録する。
次に、スポーンポイント１５１において、子スレッド１
１２−１１５の各々はＰＳＬトリガー呼び戻しに基づい
てそのＣＰＵタイマをサンプルする（これは開始値であ
る）。

【００５０】一度、接続ポイント１５２以前に、並列子
スレッド１１２−１１５が到達すると、それらは、再
び、それらのＣＰＵタイマをサンプルする（これは終了
値である）そして、デルタを計算する。それから、以下
に説明するように、各子スレッド１１２−１１５は、固
有メモリセルにおけるそのデルタ１２０−１２３を蓄積
する。

【００５１】親スレッド１１０がシリアル領域を実行す
るＣＰＵ時間５秒を必要とし、そして各子スレッド１１
２−１１５が並列領域を実行する時間１０秒を必要する
と仮定する。その時、スレッド１１２はセル１３０に１
０秒のデルタ１２０を蓄積する（なぜなら、それは、直
接パラレリズムにおいての実行であるから）。図４に関
して説明したように、スレッド１１２は、また、セル１
３６と１３７にデルタ１２０を蓄積する。

【００５２】このように、それは間接的パラレリズムで
の実行であるのて、スレッド１１３は、そのセル１４１
にそのデルタ１２１を蓄積する。スレッド１１３は、図
４に関して説明するように、セル１４６とセル１４７に
そのデルタを蓄積する。

【００５３】親スレッド１１０がその実行を完了した
時、それは、再び、ＣＰＵタイマをサンプルし、そして
そのデルタ４１９を計算する。それから、図４に関して
説明したように親スレッド１１０は、その子持ちデルタ
（１５秒）をセル１３２に蓄積し、そして子なしデルタ
（５秒）をセル１３３に蓄積する。

【００５４】いったん、実行プロセスが完了すると、プ
ロファイラは、メモリセルをスキャンし、そして様々な
コード領域に対するタイミング値を回復する。各領域に
対して、プロファイラはスレッドの内在的タイミング、
子デルタに間接的パラレリズムデルタの合計を加えた合
計、及びスレッドの排他的タイミング、スレッドの内在
的時間からあらゆるスレッドの子の内在時間を引いた時
間、を決定できる。例えば、スレッド１１０に対する内
在時間は４５秒（１５＋（３×１０））である。排他タ
イミングは５秒である（４５−４０）。

【００５５】プロファイラの望ましい実施例は、コンベ
ックスパーフォーマンスアナライザ、コンベックス部品
番号７１０−０１８４１５−００９であり、テキサス７
５０８０、リチャードソン、ウォータビューパークウェ
イ３０００から入手することができる。

【００５６】本発明のプロファイラは、このましくはＳ
ＭＰコンピュータシステムで実行でき、しかし、マルチ
プルインストラクションマルチデータ（“ＭＩＭＤ”）
で実行するのに適当であり、ある時は、“大量並列処理
（massively parellel) ”コンピュータシステムとして
参照される。図５は、本発明のプロファイラを実行する
ための望ましいハードウェエーク実施例の機能ブロック
ダイアグラムである。図５は、対称マルチプロセッサ
（“ＳＭＰ”）コンピュータシステム５１０を示す。コ
ンピュータシステム５１０のより完全な説明として、
“ならい機構（エグザンプラーアーキテクチャー）”コ
ンベックス部品番号０８１−１２３４３０−０００が参
照され、ここにおいて具体化され、それは、テキサス７
５０８０、リチャードソン、ウォータビューパークウェ
イ３０００、コンベックスコンピュータ株式会社から入
手することができる。処理システム５１０は、複数のハ
イパーノード５１２ａ−ｐを含む。図示の実施例におい
て、処理システム５１０は、１６個のハイパーノード５
１２を含むが、他の実施例において、ハイーパーノード
５１２の数は処理システム５１０のサイズおよびアプリ
ケーションに依存して幅広く変化する。

【００５７】一般的に、各ハイパーノード５１２は、内
部接続回路５１８により一緒に結合される複数のサブ処
理ブロック５１４とＩ／Ｏインタフェース５１６を含
む。図示された実施例において、サブ処理ブロック５１
４の数は処理システム５１０のサイズおよびアプリケー
ションに依存するが、各ハイパーノード５１２は４つの
サブ処理ブロック５１４ａ−ｄを含む。図示の実施例に
おいて、各サブ処理ブロック５１４は、一般的に一組の
中央処理装置５２０ａ−ｂ、メモリ５２２、およびスケ
ール可能コヒーラントインタフェース５２４を含む。ハ
イパーノード５１４は、対応するスケール可能コヒーラ
ントインタフェース５２４ａ−ｄを介して一次元インタ
フェースリング５２６ａ−ｄを使用して一緒に結合でき
る。

【００５８】図６は、図５のＳＭＰシステムにおける操
作部品を記述するブロックダイアグラムである。２つの
プロセッサ６１０ａ−ｂ、一個のメモリ６１２、マルチ
プルスレッド６１６ａ−ｂを持つ処理６１４、およびオ
ペレーティングシステムおよび並列サポートレイヤー６
１８が示されている。

【００５９】プロセッサ６１０は、ＨＰＰＡ−ＲＩＳＣ
７２００のような上記のＳＭＰシステムにおいて動作
するのに適当なＣＰＵとしてよく知られている。各プロ
ファイラは、スレッド６１６ａ−ｂによりアクセスされ
ることのできるローカル読み出し専用クロック（タイマ
としても参照される）６２０ａ−ｂを持つ。加えるに、
各プロセッサは、インストラクションとデータキャッシ
ュミスおよびインストラクションカウントを含む実行測
定をする付加的なカウンタおよびタイマを持つ。これら
のタイマおよびカウンタはプロセスもしくはスレッドに
より、クロック６２０ａ−ｂと同じ方法でアクセスでき
る。

【００６０】メモリ６１２は、プロセッサにより使用さ
れる情報を保持することのできるアドレス可能メモリの
形態である。高速度ランダムアクセスメモリ（“ＲＡ
Ｍ”）が望ましい。しかし、メモリ６１２は直接的アク
セス固定ディスクドライブもしくは仮想メモリシステム
の部品のようなもので良い。メモリは６１２は物理メモ
リの分割バンクもしくはシングルメモリ内での論理分割
のいずれからか構成される多重記憶エリアに分割でき
る。メモリ６１２は、上記で議論したメモリ記憶エリア
およびメモリセルに等価である複数のアドレス可能な蓄
積ロケーションを持つ。

【００６１】オペレーティングシステム６１８はＳＭＰ
システム上で実行するのに採用される様々なオペレーテ
ィングシステムで良い。ＰＳＬ６１８は、マルチプル実
行スレッドをもつためのプロセス６１４を可能とするサ
ポートを提供する。ＰＳＬは、“Ｐスレッド（Pthrea
d)”のような良く知られているＰＳＬタイプであり、そ
してその正確な動作は、ここでは詳細には議論される必
要はない。ＰＳＬ６１８は、好ましくはオペレーティン
グシステムの部品としてソフトウァアで供給できる。し
かし、ＰＳＬ６１８はオペレーティングシステム上の分
離レヤーとしても供給できるものである。あるいは、Ｐ
ＳＬ６１８はハードウェアに属するものであって良い。

【００６２】プロセス６１４もしくはスレッド６１６が
ある領域を実行するために付加的なスレッドを必要とす
る時、それはＰＳＬ６１８からスレッドを要求する。Ｐ
ＳＬ６１８は、それから良く知られたようにスレッドを
設定して位置付けする。さらにＰＳＬ６１８は拡張でき
る。すなわち、ＰＳＬ６１８がスレッドを割付けそして
設定する方法を修正するために拡張がＰＳＬ６１８に付
加される。

【００６３】マルチスレッドプロセス６１４は、“手段
（instrumentation)”と呼ばれる技術を使用するコンパ
イラによりコンパイルされ、それは、本発明のプロファ
イラの制御の元にデータをフックして動的に選択および
ファイルされるコンパイルされたプロセスにおけるスロ
ットを本質的に残す。そのようなコンパイラは、コンベ
ックスコーポレーション、テキサス７５０８０、リチャ
ードソン、ウォータビューパークウェイ３０００、コン
ベックスコンピュータ株式会社から入手できるＣおよび
フォートランコンパイラを含む。これらのコンパイラ
は、開始および終了においてプログラマに興味深いある
コード構成のスロットを残す。

【００６４】図１の本発明のプロファイラは、領域に入
った時にタイマ／カウンタをサンプルし、そして領域か
ら抜ける時にメモリセルを占有のデルタを蓄積するルー
チンへのプログラムのスロットを再誘導する動的な手段
を使用する。本発明は、また、ある実行ポイントに到達
する時記憶された機能を呼び戻すスレッドを発生させる
ＰＳＬ６１８に拡張することを含む。このように、発明
のプロファイラは、図４のプロファイラを子領域が親領
域を決定することを可能にするＰＳＬ拡張と結合する。

【００６５】

【発明の効果】本発明のプロファイラは、そのデルタを
計算して蓄積するためのスレッドを指示するための動的
手段を使用する。さらに、本発明のプロファイラは、Ｐ
ＳＬをもつ親スレッド１１０を記憶するためにＰＳＬ６
１８への拡張を使用する。この方法で、子スレッド１１
２−１１５はその親スレッド１１０を識別でき、そして
メモリセルにおけるデルタ値を蓄積できる。

【００６６】上記で議論されたプロファイラオペレーシ
ョンは、全体として正確にプロセスを分析するためのプ
ロセスにおいてあらゆる親−子に繰り返して適用可能で
あることが重要である。例えば、上で議論された親スレ
ッド１１０は実際に他の親スレッドから生まれた多くの
子スレッドの一つであり得る。加えるに、上記で議論さ
れたプロファイラは、対称的および非対称的スレッドで
同等に動作する。各スレッドはそれが実行される領域お
よひその呼もしくは親、領域に対応するセルにそのデル
タを蓄積するので、プロファイラは、プロセスで使用さ
れるあらゆるＣＰＵに対して当てはまる。

【００６７】本発明のプロファイラにより使用されるモ
デルは少なくもしくは多くのプロセッサをもつシステム
を非常によく測定できることに注目することが重要であ
る。本発明および利点が、詳細に議論されたが、様々な
変更、交代および変更が付属の請求の範囲により定義さ
れる精神と範囲から逸脱することなくなされることがこ
こにおいて理解されるべきである。

【図面の簡単な説明】

【図１】本発明のプロファイラの好ましい形態を例示し
ている。

【図２】従来技術のプロファイラを例示している。

【図３】従来技術のプロファイラを例示している。

【図４】図３のプロファイラに固有の問題を例示してい
る。

【図５】対称マルチプロセッサコンピュータシステムの
ブロック図を例示している。

【図６】図５のコンピュータの動作要素を示すブロック
図を例示している。

【符号の説明】１１０親スレッド１１２−１１５子スレッド１１６スポーンポイント１１８接続ポイント１１９−１２３デルタ１２５−１２８メモリ記憶エリア１３０−１４７セル

Claims

【特許請求の範囲】

【請求項１】各スレッドに対してコンピュータシステム
内にメモリ記憶エリアを割り当て、各メモリ記憶エリア
は複数のメモリセルを有し、そして各メモリセルは複数
のスレッドの特別のスレッドと関連しており、親スレッドを複数の子スレッドと共に記録し、かつ該親
及び複数の子スレッドは複数のスレッドから選択され、各子スレッドによって、プロセスの特別のコード領域の
ためのデルタを計算し、そして、各子スレッドによって、子スレッドと関連した第一のメ
モリセル内にそして記録された親スレッドと関連した第
二のメモリセル内にこのデルタを記憶する、各ステップから成る、コンピュータシステム上で実行する複数のスレッドを有
するプロセスプロファイル方法。
【請求項２】前記記憶するステップはさらに、各子スレッドによって、子スレッドが直接パラレリズム
でコード領域を実行したかどうかに相当する第三のメモ
リセル内にデルタを記憶するステップをさらに備える請
求項１に記載の方法。
【請求項３】前記記憶ステップはさらに、各子ステップによって、第四のメモリセル内にデルタを
記憶するステップを備え、かつこれは、このデルタが、
子スレッドによって生じたスレッドのデルタを包含する
かどうかに相当するものである請求項１に記載の方法。
【請求項４】前記記録するステップはさらに、コンピュータシステムの並列サポートレイヤと共に親ス
レッドを記録し、かつ、複数の子スレッドを並列サポートレイヤから作成する各
ステップを備える請求項１に記載の方法。
【請求項５】前記計算するステップはさらに、各子スレッドによって、第一の値を決定するためにコー
ド領域の初めに性能メトリックをサンプルし、各子スレッドによって、第二の値を決定するためにコー
ド領域の終わりに性能メトリックをサンプルし、各子スレッドによって、第一及び第二の値からデルタを
計算する、各ステップを備える請求項１に記載の方法。
【請求項６】複数のスレッドのそれぞれに対してメモリ
内に、それぞれが複数のメモリセルを有し、かつそれぞ
れが複数のスレッドの特別のスレッドと関連している複
数のメモリ記憶エリアを割り当てるための手段と、親スレッドのために複数の子スレッドを生じさせかつ親
スレッドを子スレッドと共に記録するためのものであっ
て、該親及び子スレッドは複数のスレッドのサブセット
でありかつ各子スレッドは異なるＣＰＵと関連している
並列サポートレイヤと、各子スレッドのために性能メトリックを決定するために
各子スレッドと関連したＣＰＵをサンプルするためのサ
ンプリング手段と、子スレッドと関連した第一のメモリセル内及び記録した
親スレッドと関連した第二のメモリセル内に子スレッド
に相当する記憶エリアにおいて各子スレッドのために性
能メトリックを記憶するための記憶手段と、から成るメ
モリ及び複数のＣＰＵを有するコンピュータシステム上
で複数のスレッドを有するプロセスの実行をプロファイ
ルするプロファイラ。
【請求項７】前記性能メトリックが、ＣＰＵ時間、キャ
ッシュミス、キャッシュヒット又はインストラクション
カウントから成るリストから選択される請求項６に記載
のプロファイラ。
【請求項８】前記記憶手段はさらに、各子スレッドのために、子スレッドが直接パラレリズム
でコード領域を実行したかどうかに相当する第三のメモ
リセル内に性能を記憶するための手段を備える請求項６
に記載のプロファイラ。
【請求項９】前記記憶手段はさらに、各子スレッドのために、デルタを第四のメモリセル内に
記憶する手段を備え、かつこれは、デルタが子スレッド
によって生じたスレッドのデルタを包含するかどうかに
相当するものである請求項６に記載のプロファイラ。
【請求項１０】各スレッドのためにメモリ内に一つのメ
モリ記憶エリアを割り当て、各メモリ記憶エリアは複数
のメモリセルを有し、かつ各メモリセルは複数のスレッ
ドの特別のスレッドと関連している割り当て手段と、親スレッドを複数の子スレッドと共に記録し、該親スレ
ッド及び複数の子スレッドは複数のスレッドから選択さ
れたものである記録手段と、各子スレッドのために、デルタを、プロセスの特別のコ
ード領域のために計算するための計算手段と、各子スレッドのために、子スレッドと関連した第一のメ
モリセル内及び記録した親スレッドと関連した第二のメ
モリセル内にデルタを記憶するための記憶手段と、から
成り、前記記録手段は、子スレッドを割り当てるための並列サポートレイヤと、親スレッドを割り当てた子スレッドと共に記録するため
の並列サポートレイヤへの延長部分と、を含み、前記計
算手段はさらに、第一の値を決定するためにコード領域の初めに各子スレ
ッドのために性能メトリックをサンプルするための第一
のサンプリング手段と、第二の値を決定するためにコード領域の終わりに各子ス
レッドのために性能メトリックをサンプルするための第
二のサンプリング手段と、子スレッドのそれぞれのために、第一及び第二の値から
デルタを計算するための手段と、から成る、メモリを有
するコンピュータシステム上で実行する複数のスレッド
を有するプロセスをプロファイルするためのプロファイ
ラ。