JP4783291B2

JP4783291B2 - ソフトウェアアプリケーションにおけるメモリ待ち時間を低減するための方法及び装置

Info

Publication number: JP4783291B2
Application number: JP2006534105A
Authority: JP
Inventors: ワン、ホン; ワン、ペリー; ギルカール、ミランダ; 秀樹齋藤; ラベリー、ダニエル; ホフレーナー、ゲロルフ; ティエン、ジンミン; シェン、ジョン; リャオ、シー−ウェイ; キム、ドンクン; ハーブ、グラント; シャー、サンジブ
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2003-10-02
Filing date: 2004-09-29
Publication date: 2011-09-28
Anticipated expiration: 2024-09-29
Also published as: CN1890635B; JP2007507807A; WO2005033926A2; EP1678610A2; WO2005033926A3; US20050086652A1; JP5118744B2; US7328433B2; JP2011090705A; CN1890635A

Description

この開示は、複数のヘルパースレッドに関し、より詳しくは、ソフトウェアアプリケーションにおけるメモリ待ち時間を低減するための方法及び装置に関する。

コンシューマはより高速なコンピュータを要求し続けている。同時マルチスレッディング（ＳＭＴ）のようなマルチスレッディング技術は、１つのプロセッサダイ領域に対する限られたインパクトで、スループットパフォーマンスを増大させる１つの効果的な方法である。ＳＭＴは、複数のプロセッシングスレッドをパラレルに実行することによって、プロセッサのスループットを増加させる。しかしながら、多くのソフトウェアアプリケーションはシングルスレッドであって、それゆえマルチスレッディング技術を利用しないので、ＳＭＴの恩恵を受けない。
米国特許第５８０９５６６号明細書米国特許第５５９０２９３号明細書米国特許第５８３５９４７号明細書米国特許第６１９９１５４号明細書米国特許第６２２３２７６号明細書米国特許第６６４３７６６号明細書米国特許第５８０９５６６号明細書 "Programming Itanium-Based Systems, Waiter Triebel et al, Intel Press, pages 307-309, 2001" "Scientific Computing on Itanium-based Systems, Marius Comea et al, Intel Press, pages 96-109, 2002" "Itanium Architecture for Software Developers, Intel Press, Walter Triebel, pages 12-17, 65-100, 288-308, 2000"

さらに、プロセッサ速度とメモリ速度との間のギャップは、プロセッサ速度がメモリ速度を超えて広がり続けている。その結果、コンピュータ性能は、次第にプロセッサキャッシュ層の効率によって決定されようになっている。複数の命令がシステムメモリからキャッシュメモリに転送される処理であるプリフェッチングは、キャッシュ層の効率を向上させるための良く知られた効果的な技術である。しかしながら、プリフェッチングだけでは、ソフトウェアアプリケーションがキャッシュメモリのスピードから恩恵を受けることが可能となることを保証し得ない。さらに、プリフェッチされた変数をソフトウェアアプリケーションが使用することができるようになる前にプリフェッチされた変数がキャッシュから削除されることを防ぐためには、いくつかの努力が必要である。

開示されたシステムのための使用環境を示すコンピュータシステムの一例のブロック図である。

開示されたシステムのための使用環境を示すコンピュータシステムの他の例のブロック図である。

ソフトウェアアプリケーションにおけるメモリ待ち時間を低減する方法の一例を実装すべく１つのデバイスによって実行され得る機械可読命令の例を代表するフローチャートである。

１つのヘルパースレッドに対して１つのメインスレッドの実行を管理する方法の一例を実装すべく１つのデバイスによって実行され得る機械可読命令の例を代表するフローチャートである。

１つのメインレッドに対して１つのヘルパースレッドの実行を管理する方法の一例を実装すべく１つのデバイスによって実行され得る機械可読命令の例を代表するフローチャートである。

全般的に、開示されたシステムは、メモリ待ち時間を低減することを目的として、ソフトウェアアプリケーションのメインスレッド内の複数の変数及び／又は複数の命令をプリフェッチする複数のヘルパースレッドを使用する。ソフトウェアアプリケーションは、キャッシュミス及び長いメモリ待ち時間のために解析され、ヘルパースレッドを生成してヘルパースレッド及びメインスレッドを管理すべく、コンパイラランタイム命令がソフトウェアアプリケーションに加えられる。ヘルパースレッドは、複数の変数及び／又は複数の命令をプリフェッチすべくメインスレッドから生成され、プリフェッチされた複数の変数及び／又は複数の命令をメインスレッドがアクセスするためにキャッシュする。キャッシュされた複数の変数及び／又は複数の命令が、メインスレッドがキャッシュにアクセス可能になる前にキャッシュから削除されることを防ぐべく、メインスレッド及びヘルパースレッドの実行を調整するカウンティングメカニズムがメインスレッド及びヘルパースレッドに加えられる。

図１は、開示されたシステムのための使用環境を示すコンピュータシステムの一例のブロック図を示す。コンピュータシステム１００は、パーソナルコンピュータ（ＰＣ）又は他の任意のコンピューティングデバイスであってよい。図示された例では、コンピュータシステム１００は、電源１０４によって給電されるメインプロセッシングユニット１０２を備える。メインプロセッシングユニット１０２は、システム相互接続１０８によってメインメモリデバイス１１０、フラッシュメモリデバイス１１２、及び１以上のインタフェース回路１１４に電気的に結合された１つのプロセッサ１０６を含んでよい。一例では、システム相互接続１０８は、アドレス／データバスである。無論、当業者は、プロセッサ１０６を他の複数のデバイス１１０、１１２、及び１１４に接続すべくバス以外の複数の相互接続が使用され得ることを容易に理解するだろう。例えば、１以上の専用線及び／又はクロスバが、プロセッサ１０６を他の複数のデバイス１１０、１１２、及び１１４に接続すべく使用されてよい。

プロセッサ１０６は、ＩｎｔｅｌＰｅｎｔｉｕｍ（登録商標）ファミリのマイクロプロセッサ、ＩｎｔｅｌＩｔａｎｉｕｍ（登録商標）ファミリのマイクロプロセッサ、ＩｎｔｅｌＣｅｎｔｒｉｎｏ（登録商標）ファミリのマイクロプロセッサ、及び／又はＩｎｔｅｌＸＳｃａｌｅ（登録商標）ファミリのマイクロプロセッサからのプロセッサのような、よく知られた任意のタイプのプロセッサを含む。さらに、プロセッサ１０６は、スタティックランダムアクセスメモリ（ＳＲＡＭ）のような、よく知られた任意のタイプのキャッシュメモリを有してよい。メインメモリデバイス１１０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）及び／又は任意の他の形式のランダムアクセスメモリを有してよい。例えば、メインメモリデバイス１１０は、ダブルデータレートランダムアクセスメモリ（ＤＤＲＡＭ）を有してよい。メインメモリデバイス１１０は、不揮発性メモリを有してもよい。一例では、メインメモリデバイス１１０は、よく知られた方法でプロセッサ１０６によって実行されるソフトウェアプログラムを記憶する。フラッシュメモリデバイス１１２は、任意のタイプのフラッシュメモリデバイスであってよい。フラッシュメモリデバイス１１２は、コンピュータシステム１００をブートするために使用されるファームウェアを記憶してよい。

（複数の）インタフェース回路１１４は、イーサネット（登録商標）インタフェース及び／又はユニバーサルシリアルバス（ＵＳＢ）インタフェースのような、よく知られた任意のタイプのインタフェース規格を用いて実装されてよい。１以上の入力デバイス１１６が、データ及びコマンドをメインプロセッシングユニット１０２に入力すべく複数のインタフェース回路１１４に接続されてよい。例えば、入力デバイス１１６は、キーボード、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント、及び／又は音声認識システムであってよい。

１以上のディスプレイ、プリンタ、スピーカ、及び／又は他の出力デバイス１１８が、１以上のインタフェース回路１１４を介してメインプロセッシングユニット１０２に接続されてもよい。ディスプレイ１１８は、陰極線管（ＣＲＴ）、液晶表示装置（ＬＣＤ）、又は任意の他のタイプのディスプレイであってよい。ディプレイ１１８は、メインプロセッシングユニット１０２の動作中に生成されたデータの視覚的な指示を生成する。その視覚的な指示は、人間オペレータの入力用のプロンプト、計算された値、検出されたデータ等を含む。

コンピュータシステム１００は、１以上の記憶デバイス１２０を備える。例えば、コンピュータシステム１００は、１以上のハードドライブ、コンパクトディスク（ＣＤ）ドライブ、デジタル多目的ディスクドライブ（ＤＶＤ）、及び／又は他の複数のコンピュータメディア入出力（Ｉ／Ｏ）デバイスを備える。

コンピュータシステム１００は、ネットワーク１２４への接続を介して、他の複数のデバイス１２２とデータを交換してもよい。ネットワーク接続は、イーサネット（登録商標）接続、デジタル加入者線（ＤＳＬ）、電話線、同軸ケーブル等のような、任意のタイプのネットワーク接続であってよい。ネットワーク１２４は、インターネット、電話ネットワーク、ケーブルネットワーク、及び／又は無線ネットワークのような、任意のタイプのネットワークであってよい。ネットワークデバイス１２２は、任意のタイプのネットワークデバイス１２２であってよい。例えば、ネットワークデバイス１２２は、クライアント、サーバ、ハードドライブ等であってよい。

コンピュータシステム１００は、複数のソフトウェアアプリケーションを実行すべく使用されてよい。ワードプロセッサ、コンピュータゲーム、及び／又は技術開発ツールのような種々のタイプのソフトウェアアプリケーションが、コンピュータシステム１００上で使用され得る。さらに、ソフトウェアプロファイラ及び／又はソフトウェアパフォーマンス解析が、ソフトウェアアプリケーションがいかに適切に実行されているかを判断すべくコンピュータシステム１００によって実行され得る。コンピュータシステム１００は、コンピュータシステム１００上において向上されたパフォーマンスを得るために最適化された複数のソフトウェアアプリケーションを実行してもよい。

図２は、開示されたシステムのための使用環境を示すコンピュータシステムの他の例のブロック図を示す。この例では、コンピュータシステム２００は、１つのプロセッサ２０２、１つのコンパイラ２０４、１つのメインメモリ２０６、１つのパフォーマンス解析ツール２０８、及び１つのソフトウェアアプリケーション２１０を備える。

繰り返すと、プロセッサ２０２は、ＩｎｔｅｌＰｅｎｔｉｕｍ（登録商標）ファミリのマイクロプロセッサ、ＩｎｔｅｌＩｔａｎｉｕｍ（登録商標）ファミリのマイクロプロセッサ、ＩｎｔｅｌＣｅｎｔｒｉｎｏ（登録商標）ファミリのマイクロプロセッサ、及び／又はＩｎｔｅｌＸＳｃａｌｅ（登録商標）ファミリのマイクロプロセッサからのプロセッサのような、よく知られた任意のタイプのプロセッサを含む。メインメモリデバイス２０６は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）及び／又は任意の他の形式のランダムアクセスメモリを有してよい。メインメモリデバイス２０６はまた、キャッシュ層のためのメモリを有してよい。キャッシュ層は、１つのキャッシュを有してよいし、異なるサイズ及び／又はアクセス速度を持ついくつかのレベルのキャッシュであってもよい。例えば、キャッシュ層は、３レベルのオンボードキャッシュメモリを有してよい。第１レベルのキャッシュは、最速のアクセス時間を持つ、最小のキャッシュであってよい。追加のレベルのキャッシュは、サイズ及びアクセス時間が劇的に増大している。

典型的には、コンパイラ２０４は、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、又はＢａｓｉｃのような任意のタイプのプログラミング言語を解釈する、任意のタイプのコンパイラであってよい。コンパイラ２０４は、ソフトウェアアプリケーションのコードリストを読んで、プロセッサ２０２及び／又はコンピュータシステム２００が解釈して実行することができる複数の命令を生成することによって、ソフトウェアアプリケーションのコードリストからソフトウェアアプリケーション２１０を生成する。

パフォーマンス解析ツール２０８は、ソフトウェアアプリケーションのランタイムパフォーマンスに関するフィードバックを提供する装置である。パフォーマンス解析ツール２０８は、プロセッサ２０２及び／又はコンピュータシステム２００がソフトウェアアプリケーション２１０を実行している間におけるコンピュータシステムの使用量（例えば、プロセッサ使用量、メモリ使用量、タイマ、データバス等）をモニタする。パフォーマンス解析ツール２０８は、ソフトウェアアプリケーションのパフォーマンスのボトルネック及び／又はリソース使用量に関するフィードバックを提供する。例えば、フィードバックは、ソフトウェアアプリケーション２１０のそれぞれのセクションにおけるキャッシュヒット率、キャッシュミス率、プロセッサ使用量、メモリ待ち時間、メモリ使用量、及び消費時間を含んでよい。

図３は、ソフトウェアアプリケーションにおけるメモリ待ち時間を低減する方法の一例を実装すべく１つのデバイスによって実行され得る機械可読命令の代表的な一フローチャートを示す。好ましくは、図示されたプロセス３００は、１以上のメモリ（例えば、フラッシュメモリ１１２及び／又はハードディスク１２０）に記憶されて１以上のプロセッサ（例えば、プロセッサ１０６及び／又は２０２）によってよく知られた方法で実行される、１以上のソフトウェアプログラムで実施されてよい。一方で、プロセス３００のいくつか又は全てのブロックは、手動及び／又はいくつかの他のデバイスによって実行されてよい。プロセス３００が図３に示されたフローチャートを参照して説明されるが、当業者は、プロセス３００を実行する多くの他の方法を使用し得ることを容易に理解できるだろう。例えば、多くのブロックの順番が変更され、１以上のブロックのオペレーションが変えられ、複数のブロックが結合され、及び／又は複数のブロックが削除されてよい。

全般的に、プロセス例３００は、メモリアクセス時間及び／又はキャッシュミスによりパフォーマンスボトルネックを持つソフトウェアアプリケーション２１０のエリアを特定する、パフォーマンス解析ツール２０８を使用する。このパフォーマンス情報を用いて、コンパイラ２０４は、複数のコンパイラランタイム命令を生成して、当該複数の命令をソフトウェアアプリケーション２１０に挿入する。複数のコンパイラランタイム命令は、ボトルネックをもたらしているとパフォーマンス解析ツール２０８により特定された複数の変数をプリフェッチすることによってパフォーマンスボトルネックを緩和するヘルパースレッドを生成する。コンパイラ２０４は、ヘルパースレッドの実行ポイントがメインスレッドの実行ポイントの前に進みすぎたり後に遅れすぎたりすることを防ぐことを目的として、ヘルパースレッド内にカウンティングメカニズムの一部を挿入し、かつ、メインスレッド内にカウンティングメカニズムの一部を挿入する。

プロセス例３００は、ソフトウェアアプリケーション２１０を解析することによって開始する（ブロック３０２）。パフォーマンス解析ツール２０８は、キャッシュミス及び／又はメモリ待ち時間によりパフォーマンスボトルネックが発生するソフトウェアアプリケーション２１０のエリアを特定する。パフォーマンス解析ツール２０８の一例は、Ｖｔｕｎｅ（登録商標）パフォーマンス・アナライザツールである。Ｖｔｕｎｅ（登録商標）パフォーマンス・アナライザツールは、ソフトウェアの複数のエリアでどれだけ時間が費やされたか、ソフトウェアアプリケーション２１０内のソフトウェアファンクション間の結びつき、リソース使用量（例えば、ソフトウェアアプリケーション２１０がどれだけＲＡＭを使用しているか、又はソフトウェアアプリケーション２１０が使用しているＣＰＵ時間のパーセンテージ）、及び巨大なマルチスレッドアプリケーションにおける個々のスレッドのパフォーマンスについての情報をユーザに提供する。

パフォーマンス解析ツール２０８がソフトウェアアプリケーション２１０の解析を終了した後、プロファイリング情報がコンパイラ２０４（ブロック３０４）に送られる。コンパイラ２０４は、パフォーマンス解析ツール２０８からのプロファイリング情報を処理して、パフォーマンスボトルネックを緩和するためにコンパイラ２０４がソフトウェアアプリケーション２１０のいずれの複数のエリアを修正するかを決定する。一実装例では、コンパイラ２０４は、キャッシュミス及び／又はメモリ待ち時間によりパフォーマンスボトルネックになっているソフトウェアアプリケーションの複数のエリアを特定するリストを受け取ってよい。コンパイラ２０４は、それから、最も高いキャッシュミス率及び／又は最大のメモリアクセス時間を持つ複数のコードエリアを特定して、ソフトウェアアプリケーション２１０のこれらのエリアを変更する。

コンパイラ２０４は、パフォーマンス解析ツール２０８によって特定されたソフトウェアアプリケーション２１０のエリア内の複数の変数をプリフェッチするためにヘルパースレッドを生成して管理すべく、複数のコンパイラランタイム命令を生成して当該命令をメインスレッドに挿入することによって、パフォーマンスボトルネックを緩和することを試みる（ブロック３０６）。ヘルパースレッドの生成を実装する方法の一例は、１つの命令_ssp_beginを生成して、メインスレッド内にその命令を挿入することである。この命令は、初期にはメインスレッドのみが存在する、１つのスレッドチーム（例えば、スレッド及びそのスレッドによって生まれたヘルパースレッド）を生成する。コンピュータシステム２００によって維持されるスレッドプールからヘルパースレッドを生むべく、１つの第２コンパイラランタイム命令_ssp_spawn_helperも生成されてメインスレッドに挿入される。１つの第３コンパイラランタイム命令_ssp_endが、メインスレッドに関連する全てのヘルパースレッドを終了すべくソフトウェアアプリケーション２１０内で生成される。

コンパイラがコンパイラランタイム命令を生成して、ヘルパースレッドを生むべくメインスレッド内に命令を挿入した後、そのヘルパースレッドコード（例えば、ヘルパースレッドを構成する複数のソフトウェア命令）が生成される。ヘルパースレッドコードを生成する方法の一例は、パフォーマンス解析ツール２０８から受け取ったプロファイリング情報をコンパイラ２０４に使用させ、キャッシュミスをひき起こすソフトウェアアプリケーションの複数のエリア内の複数の変数を特定することである。キャッシュミスを招く複数の変数が特定された後、コンパイラは、複数の変数にアクセスして（例えば、変数をレジスタにアサインして）複数の変数をキャッシュすべく、ヘルパースレッドのボディー内で複数の命令を生成する。

ヘルパースレッドコードを生成する方法の他の例は、ヘルパースレッドコードを生成して、ヘルパースレッド及びメインスレッドを管理する（例えば、新しい複数のスレッドを生成したり、メインスレッド及び／又はヘルパースレッドの実行を制御したりする等）複数のプラグマステートメントを使用することをソフトウェア開発者に許容することである。１つのスレッドグラフが、ヘルパースレッドコードを生成することをソフトウェア開発者に可能にするメソッドと、ヘルパースレッドコードを生成することをコンパイラに可能にするメソッドとの間でのコードの再利用を可能にするために使用されてよい。スレッドグラフは、１つの命令シーケンス又は１つのコード領域を表現したものであり、１つのスレッドと１つのヘルパースレッドとの間のスレッドスポーニングを示す。ユーザによって挿入されたプラグマステートメント及びコンパイラによって生成された複数のコンパイラランタイム命令はスレッドグラフを共有して、ヘルパースレッドコード生成モジュールが共有されることを可能にする。

コンパイラ２０４はまた、ヘルパースレッド及びメインスレッドにカウンティングメカニズムを挿入する（ブロック３０８）。カウンティングメカニズムは、ヘルパースレッド及びメインスレッドのパラレルな実行が、１つのスレッドの実行が他方のスレッドの実行の前に進みすぎたり後に遅れすぎたりすることを防ぐように調整されることを可能にする。メインスレッド及び複数のヘルパースレッドの相対的な同期化は、変数が、ヘルパースレッドによってプリフェッチされてキャッシュされ、メインスレッドが当該変数にアクセスする機会を得る前にキャッシュから削除されることを防ぐのに役立つ。その結果、メインスレッド及び複数のヘルパースレッドの相対的な同期化は、ヘルパースレッドが防ぐべく生成したキャッシュミスにメインスレッドが直面する機会を低減する。

プロセス例３００の結果、コンピュータシステム１００で実行され得る最適化されたソフトウェアアプリケーションが生成される。最適化されたソフトウェアアプリケーションは、マルチスレッディング技術を利用すべく最適化され、複数の変数をプリフェッチするヘルパースレッドを生成する複数の命令及びヘルパースレッド及びメインスレッドの実行を調整するカウンティングメカニズムを含む。

図４及び５は、複数のソフトウェアカウンタ及当該複数のカウンタの値に応答してヘルパースレッド及びメインスレッドの実行を制御する複数のコンパイラランタイム命令を用いて、カウンティングメカニズムをヘルパースレッド及びメインスレッド内に実装する方法の一例を示す。当業者は、カウンティングメカニズムを実装する他の多くの方法が使用し得ることを容易に理解するだろう。例えば、カウンタの数は変更可能であり、ヘルパースレッド及びメインスレッドの実行を調整すべくメールボックスシステムが使用され得る。カウンティングメカニズムを実装する方法例では、カウンティングメカニズムはパラレルに動作する２つの部分を含む。カウンティングメカニズムの第１部分は、メインスレッドの実行を制御すべく使用され（例えば、プロセス４００）、図４に示される。カウンティングメカニズムの第２部分は、ヘルパースレッドの実行を制御すべく使用され（例えば、プロセス５００）、図５に示される。

全般的に、カウンティングメカニズムは、メインスレッド及びヘルパースレッドの相対的な実行を制御することを試みる。カウンタのペアは、変数がプリフェッチされるために十分な量の時間を可能にすべく、メインスレッドの実行ポイントをヘルパースレッドの実行ポイントの後にいくらかの間隔で保つことを目的として、メインスレッドによって使用される。カウンタの第２ペアは、メインスレッドがプリフェッチングの恩恵を受けることを可能にすべく、ヘルパースレッドの実行ポイントをメインスレッドの実行ポイントから予め定められた間隔で保つことを目的として、ヘルパースレッドによって使用される。

図４は、メインスレッドの実行を制御すべくメインスレッドに実装される、カウンティングメカニズム４００の第１部分を示す。まず、ランアヘッド値（例えば、Ｘ）が決定される（ブロック４０２）。ランアヘッド値は、メイン及びヘルパースレッドが実行において互いにどれだけ進んで又は遅れて動作してよいかを指示する、予め定められた閾値である。ランアヘッド値は、プロファイリング情報の解析を通じて経験的に決定されてよいし、コンパイラ２０４内のオプションにより設定されてよい。２つのカウンタ（例えば、ｍｃ及びＭ）がメインスレッドに挿入されて、初期化（例えば、ｍｃ＝Ｘ及びＭ＝１）される（ブロック４０４）。

メインスレッドは、典型的には、ループ内でパフォーマンスボトルネックをひき起こす複数の変数を含む、いくつかのデータ処理（例えば、計算、変数の操作、ソーティング等）を実行するループを含んでいる。メインスレッドは、処理されるべき残りのデータが存在するか否かを確認する（ブロック４０６）。残りのデータがない場合、メインスレッドは、メインスレッドに関連する他の複数のヘルパースレッドを終了させる１つのコンパイラランタイム命令を呼び出す（ブロック４０８）。

残りのデータがある場合（ブロック４０６）、メインスレッドはデータ処理を実行して（ブロック４１０）、それからカウンタｍｃをインクリメントする（ブロック４１２）。カウンタｍｃは、ランアヘッド閾値によってスケールされたカウンタＭ（例えば、Ｍ＊Ｘ）と比較され、スケールされたカウンタＭよりカウンタｍｃが大きいか判断する（例えば、ｍｃ＞Ｍ＊Ｘ）（ブロック４１４）。

カウンタｍｃがＭ＊Ｘより大きい場合、それはメインスレッドの実行がヘルパースレッドの実行の前に進みすぎていることを意味する。その場合、カウンタＭはインクリメントされ（ブロック４１６）、ヘルパースレッドをアクティベートすべく１つのコンパイラランタイム命令が呼び出される（ブロック４１８）。メインスレッドは、次のデータ要素を取得し（ブロック４２０）、データ処理ループ（ブロック４０６、４０８、４１０、４１２、４１４，４１６、４１８、及び４２０）にわたって繰り返して実行を続ける。

カウンタｍｃがＭ＊Ｘ以下である場合、それはメインスレッドの実行が予め定められたランアヘッド閾値の内であることを意味する。メインスレッドは次のデータ要素を取得（ブロック４２０）ことによって継続し、データ処理ループ（ブロック４０６、４０８、４１０、４１２、４１４，４１６、４１８、及び４２０）にわたって繰り返しを続ける。

図５は、ヘルパースレッドの実行を制御すべくヘルパースレッドに実装されるカウンティングメカニズム５００の第２部分を示す。カウンティングメカニズム５００の第２部分の最初において、２つのカウンタ（ｈｃ及びＨ）が初期化され（ｈｃ＝０及びＨ＝１）（ブロック５０２）、その後ヘルパースレッドは、プリフェッチされるべき残りのデータがあるかを確認する（ブロック５０４）。残りのデータがない場合、ヘルパースレッドは終了する。

プリフェッチされるべき残りのデータがある場合（ブロック５０４）、ヘルパースレッドは、データをプリフェッチする（例えば、変数を読み込んで変数の値をキャッシュにプットする命令が実行される）（ブロック５０６）。カウンタｈｃの値がインクリメントされ、メインスレッドのカウンタｍｃの値が取得される（ブロック５０８）。

カウンタｈｃは、ランアヘッド値ＸによってスケールされたカウンタＨと比較され（例えば、ｈｃ＞Ｈ＊Ｘ）、カウンタｈｃはカウンタｍｃの値と比較される（ｈｃ＞ｍｃ）（ブロック５１０）。両方の条件が満たされた場合、ヘルパースレッドはメインスレッドの前に進み過ぎている。ヘルパースレッドは、カウンタＨをインクリメントして（ブロック５１２）継続し、ウェイトしてメインスレッドが追いつくことを可能にする１つのコンパイラランタイム命令を実行する（例えば、_ssp_wait）（ブロック５１４）。その後、ヘルパースレッドは、次のデータ要素を取得してプリフェッチし（ブロック５１６）、ループにわたって繰り返しを続ける。

両方の条件（ｈｃ＞Ｈ＊Ｘかつｈｃ＞ｍｃ）が満たされない場合（ブロック５１０）、ヘルパースレッドは、カウンタｈｃをカウンタｍｃと比較する（例えば、ｈｃ＜＝ｍｃ）（ブロック５１８）。ｈｃがｍｃより小さい場合、ヘルパースレッドはメインスレッドより遅れている。その場合、ヘルパースレッドは、１つのコンパイラランタイム命令を実行して、ヘルパースレッドが追いつくのを可能にする（例えば、_ssp_catchup）（ブロック５２０）。キャッチアップ命令を実装する１つの方法は、カウンタｈｃ、カウンタＨ、及びプリフェッチされるデータの値を、それぞれカウンタｍｃ、カウンタＭ、及びメインスレッドで処理されているデータに一致するようキャッチアップ命令にセットさせることである。そのように複数のカウンタ値を変更することによって、ヘルパースレッドは、メインスレッドによって既にフェッチされた複数の変数をプリフェッチすることをスキップする。その後、次のデータ要素が取得されて（ブロック５１６）、ヘルパースレッドは、ループにわたって繰り返しを続ける（ブロック５０４、５０６、５０８、５１０、５１２、５１４、及び５１６）。

上記は、特にハードウェア上で実行されるソフトウェアを含むシステムの例を開示しているが、そのようなシステムは単に実例に過ぎず、限定するものとして見なされるべきではない。例えば、開示されたハードウェア及びソフトウェアコンポーネントのいくつか又は全ては、専用ハードウェアのみ、ソフトウェアのみ、ファームウェアのみ、或いはハードウェア、ファームウェア、及び／又はソフトウェアのある組み合わせで実施可能であること考えられる。

さらに、ある方法、装置、及び製品がここで記載されているが、本特許の有効範囲はそれに限定されない。対照的に、本特許は、文言上又は均等主義のもとに、添付のクレームの範囲内に適正に属する全ての装置、方法、及び製品をカバーする。

Claims

コンピュータが実行し、メインスレッドを有するソフトウェアアプリケーションにおけるメモリ待ち時間を低減する方法であって、
前記ソフトウェアアプリケーションを解析して、キャッシュミスが生じる、複数のソフトウェア命令の第１エリアを特定する段階と、
複数のソフトウェア命令の前記特定されたエリアの実行によってフェッチされるべき変数をプリフェッチするヘルパースレッドを生成する命令と前記ヘルパースレッドをアクティベートするアクティベート命令とを有する複数のコンパイラランタイム命令の第１セットを生成して、複数のコンパイラランタイム命令の前記第１セットを前記メインスレッドに挿入する段階と、
前記ヘルパースレッドの実行を遅延させる命令と前記ヘルパースレッドを前記メインスレッドにキャッチアップさせるキャッチアップ命令とを有する複数のコンパイラランタイム命令の第２セットを生成して、複数のコンパイラランタイム命令の前記第２セットを前記ヘルパースレッドに挿入する段階と、
前記メインスレッド及び前記ヘルパースレッドにカウンティングメカニズムを挿入する段階であって、前記カウンティングメカニズムは、前記メインスレッド及び前記ヘルパースレッドの相対的な実行ポイントを調整すべく構成されている段階と
を備え、
前記カウンティングメカニズムは、前記メインスレッド及び前記ヘルパースレッドにおけるデータ処理の実行に応じてカウントされるソフトウェアカウンタと、前記メインスレッド及び前記ヘルパースレッドが実行において互いにどれだけ進んで動作してよいかを示す閾値とを含み、前記メインスレッドに挿入された前記ソフトウェアカウンタが前記閾値を超えた場合に、前記メインスレッドが前記ヘルパースレッドをアクティベートすることにより、前記相対的な実行ポイントが調整され、
前記キャッチアップ命令は、前記ヘルパースレッドに挿入された前記ソフトウェアカウンタを前記メインスレッドに挿入された前記ソフトウェアカウンタに一致させ、前記ヘルパースレッドにプリフェッチされるデータの値を前記メインスレッドで処理されているデータに一致させる
方法。
前記ソフトウェアアプリケーションを解析する段階は、メモリロード待ち時間が生じる、複数のソフトウェア命令の第２エリアを特定する段階を有する
請求項１に記載の方法。
複数のソフトウェア命令の前記第１エリアは、複数のソフトウェア命令の前記第２エリアと異なる
請求項２に記載の方法。
複数のソフトウェア命令の前記第１エリアは、複数のソフトウェア命令の前記第２エリアを有する
請求項２に記載の方法。
前記ソフトウェアアプリケーションを解析する段階は、
パフォーマンス解析ツールを実行して、前記ソフトウェアアプリケーションに関するキャッシュミス率を計測する段階と、
前記パフォーマンス解析ツールを実行して、前記ソフトウェアアプリケーションに関するメモリロード待ち時間を計測する段階と、
前記キャッシュミスが生じる、複数のソフトウェア命令の前記第１エリアを、コンパイラに送る段階と、
前記メモリロード待ち時間が生じる、複数のソフトウェア命令の前記第２エリアを、コンパイラに送る段階と
を有する請求項２から４のいずれか一項に記載の方法。
前記メインスレッドに挿入された、複数のコンパイラランタイム命令の前記第１セットは、前記ヘルパースレッドを終了させる命令を有する
請求項１から５のいずれか一項に記載の方法。
前記ヘルパースレッドは、前記メインスレッドに挿入された前記ソフトウェアカウンタと前記ヘルパースレッドに挿入された前記ソフトウェアカウンタとの比較、及び、前記ヘルパースレッドに挿入された前記ソフトウェアカウンタと前記閾値との比較に基づいて、前記ヘルパースレッドの実行が前記メインスレッドの前に進み過ぎているか否かを判断し、前記ヘルパースレッドの実行が前記メインスレッドの前に進み過ぎていると判断した場合に前記遅延させる命令を呼び出して前記ヘルパースレッドの実行を遅延させることにより、前記相対的な実行ポイントが調整される
請求項１から６のいずれか一項に記載の方法。
前記ヘルパースレッドは、前記メインスレッドに挿入された前記ソフトウェアカウンタと前記ヘルパースレッドに挿入された前記ソフトウェアカウンタとの比較に基づいて、前記ヘルパースレッドの実行が前記メインスレッドより遅れているか否かを判断し、前記ヘルパースレッドの実行が前記メインスレッドより遅れていると判断した場合に前記キャッチアップ命令を実行することにより、前記ヘルパースレッドが前記メインスレッドにキャッチアップするよう前記ヘルパースレッドの実行ポイントが調整される
請求項１から７のいずれか一項に記載の方法。
前記ヘルパースレッドは、前記キャッチアップ命令の実行によって前記ヘルパースレッドに挿入された前記ソフトウェアカウンタを前記メインスレッドに挿入された前記ソフトウェアカウンタに一致させ、前記ヘルパースレッドにプリフェッチされるデータの値を前記メインスレッドで処理されているデータに一致させることにより、前記メインスレッドによって既にフェッチされた複数の変数をフェッチすることをスキップして前記メインスレッドにキャッチアップする
請求項８に記載の方法。
メモリ待ち時間を低減するシステムであって、
プロセッサと、
前記プロセッサに機能的に結合されたメモリとを備え、
前記メモリは、
データキャッシュミスを受けるアプリケーションプログラムにおけるコード領域を特定すべく構成されたソフトウェアツールと、
前記ソフトウェアツールに機能的に結合されたコンパイラであって、前記ソフトウェアツールから情報を受け取り、前記特定されたコード領域に含まれる複数の変数をプリフェッチするヘルパースレッドを生成すべく構成されたコンパイラと、
前記ヘルパースレッドを管理し、かつ、前記アプリケーションプログラムのメインスレッドを管理すべく、生成されて前記アプリケーションプログラムに挿入される、複数のコンパイラランタイム命令のセットと、
前記メインスレッド及び前記ヘルパースレッドに挿入され、前記ヘルパースレッド及び前記メインスレッドに関する実行ポイントの調整を促進するカウンティングメカニズムと
を記憶し、
前記カウンティングメカニズムは、前記メインスレッド及び前記ヘルパースレッドにおけるデータ処理の実行に応じてカウントされるソフトウェアカウンタと、前記メインスレッド及び前記ヘルパースレッドが実行において互いにどれだけ進んで動作してよいかを示す閾値を含み、
前記プロセッサは、前記メインスレッドに挿入された前記ソフトウェアカウンタが前記閾値を超えた場合に、前記メインスレッドに前記ヘルパースレッドをアクティベートさせることで、前記実行ポイントを調整する
システム。
前記コンパイラが前記ソフトウェアツールから受け取る前記情報は、前記特定されたコード領域に関する複数のデータキャッシュミス率を有する
請求項１０に記載のシステム。
前記コンパイラが前記ソフトウェアツールから受け取る前記情報は、前記特定されたコード領域に関するメモリロード待ち時間を有する
請求項１０または１１に記載のシステム。
複数のコンパイラランタイム命令の前記セットは、前記ヘルパースレッドを生成し、前記ヘルパースレッドを終了させ、前記ヘルパースレッドの実行を遅延させ、前記ヘルパースレッドをアクティベートさせる複数の命令を有する
請求項１０から１２のいずれか一項に記載のシステム。
複数のコンパイラランタイム命令の前記セットは、前記ヘルパースレッド及び前記メインスレッドの実行を調整する複数の命令を有する
請求項１０から１２のいずれか一項に記載のシステム。
前記ヘルパースレッドは、前記メインスレッドに挿入された前記ソフトウェアカウンタと前記ヘルパースレッドに挿入された前記ソフトウェアカウンタとの比較、及び、前記ヘルパースレッドに挿入された前記ソフトウェアカウンタと前記閾値との比較に基づいて、前記ヘルパースレッドの実行が前記メインスレッドの前に進み過ぎているか否かを判断し、前記ヘルパースレッドの実行が前記メインスレッドの前に進み過ぎていると判断した場合に前記ヘルパースレッドの実行を遅延させることにより、前記実行ポイントが調整される
請求項１０から１４のいずれか一項に記載のシステム。
前記ヘルパースレッドは、前記メインスレッドに挿入された前記ソフトウェアカウンタと前記ヘルパースレッドに挿入された前記ソフトウェアカウンタとの比較に基づいて、前記ヘルパースレッドの実行が前記メインスレッドより遅れているか否かを判断し、前記ヘルパースレッドの実行が前記メインスレッドより遅れていると判断した場合に、前記ヘルパースレッドが前記メインスレッドにキャッチアップするよう前記ヘルパースレッドの実行ポイントが調整される
請求項１０から１５のいずれか一項に記載のシステム。
前記ヘルパースレッドは、前記ヘルパースレッドに挿入された前記ソフトウェアカウンタを前記メインスレッドに挿入された前記ソフトウェアカウンタに一致させ、前記ヘルパースレッドにプリフェッチされるデータの値を前記メインスレッドで処理されているデータに一致させることにより、前記メインスレッドによって既にフェッチされた複数の変数をフェッチすることをスキップして前記メインスレッドにキャッチアップする
請求項１６に記載のシステム。
メモリ待ち時間を低減するためのプログラムであって、コンピュータに、
メインスレッドを有するソフトウェアアプリケーションを解析させ、
前記ソフトウェアアプリケーションにおけるコード領域を特定する手順と、
前記特定されたコード領域に含まれる複数の変数をプリフェッチするヘルパースレッドを生成する手順と、
前記ヘルパースレッド及び前記メインスレッドを管理すべく、複数のコンパイラランタイム命令の第１セットを生成させて、前記メインスレッドに挿入する手順と、
前記ヘルパースレッド及び前記メインスレッドを管理すべく、複数のコンパイラランタイム命令の第２セットを生成させて前記ヘルパースレッドに挿入する手順と、
前記ヘルパースレッド及び前記メインスレッドの実行ポイントを管理する手順と
を実行させ、
前記実行ポイントを管理する手順は、前記メインスレッドに挿入されデータ処理の実行に応じてカウントされるソフトウェアカウンタが、前記メインスレッド及び前記ヘルパースレッドが実行において互いにどれだけ進んで動作してよいかを示す閾値を超えた場合に、前記メインスレッドに前記ヘルパースレッドをアクティベートさせる手順を有する
プログラム。
前記コード領域を特定する手順は、キャッシュミス率に基づいて前記コード領域を特定する手順を有する
請求項１８に記載のプログラム。
前記コード領域を特定する手順は、メモリロード待ち時間に基づいて前記コード領域を特定する手順を有する
請求項１８または１９に記載のプログラム。
前記ヘルパースレッドは、前記特定されたコード領域内の複数の命令をプリフェッチする
請求項１８から２０のいずれか一項に記載のプログラム。
前記複数のコンパイラランタイム命令は、前記ヘルパースレッドを生成し、前記ヘルパースレッドを終了させ、前記ヘルパースレッド及び前記メインスレッドの実行を調整する命令を含む
請求項１８から２１のいずれか一項に記載のプログラム。
前記ヘルパースレッド及び前記メインスレッドの実行ポイントを管理する手順は、カウンティングメカニズムの第１部分を前記メインスレッドに挿入して、カウンティングメカニズムの第２部分を前記ヘルパースレッドに挿入することによって、前記メインスレッド及び前記ヘルパースレッドの前記実行を管理する手順を有する
請求項１８から２２のいずれか一項に記載のプログラム。
前記実行ポイントを管理する手順は、前記ヘルパースレッドが、前記メインスレッドに挿入された前記ソフトウェアカウンタと前記ヘルパースレッドに挿入されデータ処理の実行に応じてカウントされるソフトウェアカウンタとの比較、及び、前記ヘルパースレッドに挿入された前記ソフトウェアカウンタと前記閾値との比較に基づいて、前記ヘルパースレッドの実行が前記メインスレッドの前に進み過ぎているか否かを判断し、前記ヘルパースレッドの実行が前記メインスレッドの前に進み過ぎていると判断した場合に前記ヘルパースレッドの実行を遅延させる手順をさらに有する
請求項１８から２３のいずれか一項に記載のプログラム。
前記実行ポイントを管理する手順は、前記ヘルパースレッドが、前記メインスレッドに挿入された前記ソフトウェアカウンタと前記ヘルパースレッドに挿入されデータ処理の実行に応じてカウントされるソフトウェアカウンタとの比較に基づいて、前記ヘルパースレッドの実行が前記メインスレッドより遅れているか否かを判断し、前記ヘルパースレッドの実行が前記メインスレッドより遅れていると判断した場合に、前記ヘルパースレッドが前記メインスレッドにキャッチアップする手順をさらに有する
請求項１８から２４のいずれか一項に記載のプログラム。
前記ヘルパースレッドが前記メインスレッドにキャッチアップする手順は、前記ヘルパースレッドが、前記ヘルパースレッドに挿入された前記ソフトウェアカウンタを前記メインスレッドに挿入された前記ソフトウェアカウンタに一致させ、前記ヘルパースレッドにプリフェッチされるデータの値を前記メインスレッドで処理されているデータに一致させることにより、前記メインスレッドによって既にフェッチされた複数の変数をフェッチすることをスキップする手順を含む
請求項２５に記載のプログラム。