JP2022510715A

JP2022510715A - データ領域を記憶するためのキャッシュ

Info

Publication number: JP2022510715A
Application number: JP2021532404A
Authority: JP
Inventors: エイチ．ローガブリエル
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2018-12-10
Filing date: 2019-12-09
Publication date: 2022-01-27
Anticipated expiration: 2039-12-09
Also published as: CN113168378A; WO2020123343A1; KR20210088683A; US11232039B2; US20220138107A1; JP7108141B2; US20200183848A1; EP3895025A1

Abstract

コンピューティングシステムで効率的にメモリアクセスを行うためのシステム、装置及び方法を開示する。コンピューティングシステムは、１つ以上のクライアントと、通信ファブリックと、低レイテンシ、高帯域幅メモリが実装された最終レベルキャッシュと、を含む。最終レベルキャッシュのキャッシュコントローラは、最終レベルキャッシュの第２の領域に記憶されたデータのコピーを有するシステムメモリの第１の領域に対応するアドレスの範囲を決定する。キャッシュコントローラは、メモリアクセス要求の要求アドレスがアドレスの範囲内にないことを決定した場合に、選択されたメモリアクセス要求をシステムメモリに送信する。キャッシュコントローラは、要求アドレスがアドレスの範囲内にあることを決定した場合に、最終レベルキャッシュのデータにアクセスすることによって、選択されたメモリ要求を処理する。【選択図】図２

Description

半導体製造プロセスが進歩し、ダイ上の幾何学的寸法が減少するにつれて、半導体チップは、より多くの機能及び性能を提供する。しかしながら、処理及び集積回路の設計の最新の技術では、潜在的利益を制限する設計上の問題が依然として生じている。１つの問題として、二次元平面レイアウトチップの連続した世代において、単位長さ当たりの相互接続遅延が増加し続けていることが挙げられる。また、個々のチップ間の電気インピーダンスが高いため、レイテンシが長くなる。さらに、オフチップから別のダイにトラバースする信号は、これらの長い信号経路上で寄生容量が増加するため、これらの信号の消費電力を増加させる。

別の設計上の問題は、多くのデータにアクセスする殆どのソフトウェアアプリケーションが、通常、メモリにバインドされているため、計算時間が一般にメモリ帯域幅によって決定されることである。オフチップダイナミックランダムアクセスメモリ（ＤＲＡＭ）のメモリアクセスレイテンシは、数百から数千を超えるクロックサイクルになり、プロセッサ設計のコア数の増加により、メモリ帯域幅の問題が顕著になっている。近年、オフパッケージのＤＲＡＭ及びメインメモリにアクセスする前に、大容量、低レイテンシ、高帯域幅のメモリへのアクセスを提供するインパッケージメモリを実装するためのメモリ技術が進歩している。

メモリ技術の一例は、垂直方向及び水平方向の両方で単一回路に集積化されたアクティブな電子部品の２つ以上の層を含むために使用される三次元集積回路（３ＤＩＣ）である。システムインパッケージ（ＳｉＰ）又はチップスタックマルチチップモジュール（ＭＣＭ）として知られる３Ｄパッケージは、単一パッケージに別々のチップを積み重ねることによって、スペースを節約する。これらの層内のコンポーネントは、垂直方向又は水平方向に関わらず、オンチップシグナリングを使用して通信する。このシグナリングにより、既知の二次元平面レイアウト回路上の相互接続信号の遅延を低減する。

上記の説明の製造トレンドは、単一パッケージ内にギガバイトの集積メモリをもたらす。場合によっては、コンピューティングシステムは、オフチップメモリにアクセスする前に、追加のオンチップストレージを最終レベルキャッシュとして使用する。追加メモリによって達成されるミス率の低下は、プロセッサとそのオフチップメモリとの間のレイテンシギャップを隠すのに役立つ。しかしながら、ロウベース（row-based）のメモリのキャッシュアクセスメカニズムは、この追加の集積メモリには非効率的である。マルチギガバイトキャッシュのための数百メガバイト等の大規模なタグデータアレイは、マイクロプロセッサダイ上に配置するのに費用がかかり、大規模なタグアレイのルックアップに長いレイテンシをもたらす。タグ及びデータが順次読み出されるため、ルックアップ及びデータ検索に時間がかかり過ぎる。

例えば、６４バイトラインから４キロバイト（ＫＢ）ラインに増大する等のように、追加の集積メモリのデータキャッシュラインのサイズが増加すると、集積メモリのキャッシュラインの数及び対応するタグのサイズの両方が減少する。しかしながら、ダーティビット及びコヒーレンシ情報は、元のキャッシュラインサイズ（６４バイトライン）の粒度で維持される。したがって、オンパッケージＤＲＡＭは、多くの追加データストレージを提供するが、キャッシュ及びＤＲＡＭアクセスメカニズムが非効率的である。

上記に鑑み、コンピューティングシステムで効率的にメモリアクセスを行うための効率的な方法及びシステムが望まれている。

添付の図面と併せて以下の説明を参照することによって、本明細書で説明する方法及びメカニズムの利点を良好に理解することができる。

データストレージの一実施形態のブロック図である。コンピューティングシステムで効率的なメモリアクセスを行う方法の一実施形態のフロー図である。コンピューティングシステムの一実施形態のブロック図である。システムインパッケージ（ＳｉＰ）の一実施形態のブロック図である。データストレージの一実施形態のブロック図である。データストレージの一実施形態のブロック図である。データストレージの一実施形態のブロック図である。データストレージの一実施形態のブロック図である。データストレージの一実施形態のブロック図である。コンピューティングシステムで効率的なメモリアクセスを行う方法の一実施形態のフロー図である。データストレージの一実施形態のブロック図である。データストレージの一実施形態のブロック図である。データストレージの一実施形態のブロック図である。コンピューティングシステムで効率的なメモリアクセスを行う方法の一実施形態のフロー図である。

本発明は、様々な変形及び代替形態を受け入れるが、特定の実施形態を図面に例として示し、本明細書で詳細に説明する。しかしながら、図面及びその詳細な説明は、本発明を、開示された特定の形態に限定することを意図するものではなく、むしろ、本発明は、添付の特許請求の範囲によって定義される本発明の範囲に収まる全ての変形、均等物及び代替物を含むことを理解されたい。

以下の説明では、本明細書に提示される方法及びメカニズムの十分な理解を提供するために、多くの具体的な詳細が記載されている。しかしながら、当業者は、様々な実施形態が、これらの具体的な詳細無しに実施され得ることを認識すべきである。いくつかの場合、本明細書で説明するアプローチを曖昧にすることを回避するために、周知の構造、コンポーネント、信号、コンピュータプログラム命令及び技術が詳細に示されていない。説明を簡単且つ明確にするために、図に示される要素は、必ずしも縮尺通りに描かれていないことが理解されよう。例えば、いくつかの要素の寸法は、他の要素に対して誇張され得る。

コンピューティングシステムで効率的にメモリアクセスを行うための様々なシステム、装置、方法及びコンピュータ可読記憶媒体が開示される。コンピューティングシステム内の１つ以上のクライアントがアプリケーションを処理する。このようなクライアントの例は、汎用中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、高速処理装置（ＡＰＵ）、入出力（Ｉ／Ｏ）デバイス等を含む。また、コンピューティングシステムは、クライアント間でデータを転送するための複数のリンクインタフェースを含む。さらに、１つ以上のクライアントの各々は、通信ファブリックを介して最終レベルキャッシュのデータにアクセスする。

様々な実施形態では、キャッシュは、システムメモリから分離した低レイテンシ、高帯域幅メモリで実現される。いくつかの実施形態では、キャッシュは、キャッシュメモリサブシステムにおける最終レベルキャッシュとして使用される。他の実施形態では、キャッシュは、キャッシュメモリサブシステム内の別のレベルである。システムメモリは、様々なオフパッケージダイナミックランダムアクセスメモリ（ＤＲＡＭ）のうち何れかと、ハードディスクドライブ（ＨＤＤ）及びソリッドステートディスク（ＳＳＤ）等のメインメモリと、を含む。いくつかの実施形態では、コンピューティングシステムは、何れかのクライアントの処理装置を有するシステムインパッケージ（ＳｉＰ）に含まれる三次元（３Ｄ）ＤＲＡＭ等の統合ＤＲＡＭを備えたキャッシュを実装する。他の実施形態では、コンピューティングシステムは、同期ＲＡＭ（ＳＲＡＭ）、組み込みＤＲＡＭ（ｅＤＲＡＭ）、ソリッドステートディスク等のフラッシュメモリ、及び、様々な不揮発性メモリの何れか等のキャッシュを実現するための他のメモリ技術のうち何れかを含む。不揮発性メモリの例として、相変化メモリ、メモリスタ、及び、スピン転送トルク（ＳＴＴ）磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）が挙げられる。

キャッシュのキャッシュコントローラは、１つ以上のキューを含む。各キューは、各々のタイプのメモリアクセス要求を記憶する。例えば、いくつかの設計では、第１のキューは、メモリ読み出し要求を記憶し、第２のキューは、メモリ書き込み要求を記憶する。キャッシュコントローラ内のロジックは、１つ以上のキューのうち何れかのキューを選択し、選択されたキューからメモリアクセス要求を選択する。ロジックは、キャッシュの第２の領域に記憶された連続データのコピーを有する、システムメモリに記憶された連続データの第１の領域に対応するアドレスの範囲を決定する。本明細書で使用される場合、「連続データ」という用語は、データストレージで互いに隣接して位置する１ビット以上のデータを指す。いくつかの実施形態では、連続データのサイズは、実行中のソフトウェアアプリケーションの予測される次のデータアクセスの領域に対応するサイズの粒度を提供するために、キャッシュラインのサイズ（例えば、６４バイト）とページのサイズ（例えば、４キロバイト）との間の範囲になる。他の実施形態では、別のサイズの連続データを使用する。

以前の時点において、ロジックが、予測される次のデータアクセスの領域が定義されていると決定した場合、ロジックは、システムメモリのこの領域（この例では、第１の領域）の連続データのコピーを、キャッシュの第２の領域に記憶する。第１の領域の連続データは、予測される次のデータアクセスに対応するデータを含む。また、ロジックは、領域を特徴付けるために使用される複数のパラメータを初期化する。例えば、ロジックは、システムメモリの先頭にデータを記憶するメモリ位置を指す第１の開始アドレスを維持する。さらに、ロジックは、キャッシュの第２の領域の先頭にデータを記憶するメモリ位置を指す第２の開始アドレスを維持する。さらに、ロジックは第２の領域のサイズを維持する。

一実施形態では、ロジックは、受信したメモリアクセス要求を監視し、パターンを識別することによって、次のメモリアクセスでアクセスされるシステムメモリの領域を予測する。ロジックは、この領域を識別する。これに応じて、ロジックは、この領域の連続データのコピーを記憶することと、対応するパラメータを更新することと、等の上記のステップを行う。別の実施形態では、ロジックは、予測される次のデータアクセスの領域を識別するソフトウェア、又は、識別するために使用されるソフトウェアから１つ以上のヒントを受信する。

ロジックは、第２の領域のサイズの変更を検出すると、第１の開始アドレスにおいて始まり、第１の開始アドレスと第２の領域の新しいサイズとの合計であるアドレスで終わるアドレスの範囲を決定する。いくつかの実施形態では、第１の開始アドレス及び第２の領域のサイズのうち１つ以上に対する更新は、データが第２の領域で更新されると発生する。第２の領域に対する更新は、第２の領域におけるデータの追加、データの除去、及び、既存データの上書きのうち１つ以上を含む。ロジックがメモリアクセス要求を複数のキューのうち何れかのキューから選択すると、キャッシュコントローラのロジックは、選択されたメモリアクセス要求の要求アドレスを、アドレスの範囲と比較する。ロジックは、要求アドレスがこの範囲内にあるかどうかを決定する。したがって、最終レベルキャッシュ内にキャッシュヒット又はキャッシュミスがあるかどうかを決定するために、ロジックは、キャッシュ内のタグアレイのセットアソシアティブルックアップ又はフルアソシアティブルックアップを行うのではなく、要求アドレスを、この維持されたアドレスの範囲と比較する。比較は、キャッシュのインデックス及びタグのルックアップ動作よりも高速な動作である。

ロジックは、選択されたメモリアクセス要求の要求アドレスがアドレスの範囲内にないことを決定した場合に、選択されたメモリアクセス要求を、処理のためにシステムメモリに送信する。しかしながら、ロジックは、要求アドレスがアドレスの範囲内にあると決定した場合に、キャッシュのデータにアクセスすることによってメモリアクセス要求を処理する。そのために、ロジックは、要求アドレスと第１の開始アドレスとの差に基づいてオフセットを決定する。その後、ロジックは、オフセット及び第２の開始アドレスに基づいて変換アドレスを決定する。次に、ロジックは、変換アドレスから始まるキャッシュのデータにアクセスすることによって、メモリアクセス要求を処理する。

図１を参照すると、データストレージ１００の一実施形態の一般化されたブロック図が示されている。図示するように、システムメモリ１１０及び最終レベルキャッシュ１３０の各々は、データを記憶する。この説明では、キャッシュ１３０を最終レベルキャッシュとして説明しているが、他の実施形態では、キャッシュ１３０は、キャッシュメモリサブシステム内の別のレベルである。説明を容易にするために、処理装置、通信インターフェース等を示していない。データ１２６は、システムメモリ１１０の領域１２０に記憶された連続データである。最終レベルキャッシュ１３０は、領域１２０の連続データ１２６のコピーを領域１４０に記憶する。領域パラメータ１５０は、領域１２０，１４０を特徴付ける。

様々な設計では、システムメモリ１１０は、オフパッケージＤＲＡＭ、ハードディスクドライブ（ＨＤＤ）及びソリッドステートディスク（ＳＳＤ）のうち１つ以上を含む。いくつかの設計では、最終レベルキャッシュ１３０は、システムメモリ１１０から分離された、オンパッケージの低レイテンシ、高帯域幅のメモリを含む。いくつかの設計では、最終レベルキャッシュ１３０は、３ＤＤＲＡＭを含む。他の実施形態では、最終レベルキャッシュ１３０は、同期ＲＡＭ（ＳＲＡＭ）、組み込みＤＲＡＭ（ｅＤＲＡＭ）、ソリッドステートディスク等のフラッシュメモリ、及び、様々な不揮発性メモリのうち何れかを含む。不揮発性メモリの例として、相変化メモリ、メモリスタ、スピン転送トルク（ＳＴＴ）磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）が挙げられる。

図示した実施形態では、アドレス１２２（「ｘ」ともよばれる）は、領域１２０の先頭にデータを記憶するメモリ位置を指す。ここで、総称値「ｘ」は、整数、１６進数等の任意の方式で表される任意の値である。領域１２０は、サイズ１２４（「Ｓバイト」とも呼ばれる）を有する。同様に、アドレス１４２（「ａ」とも呼ばれる）は、領域１４０の先頭にデータを記憶するメモリ位置を指す。領域１４０は、サイズ１４４（「Ｓバイト」とも呼ばれる）を有し、領域１２０のサイズ１２４と等しい。値「ｘ」、「Ｓ」及び「ａ」は、正の整数である。

いくつかの実施形態では、最終レベルキャッシュ１３０のキャッシュコントローラの順序要素は、領域パラメータ１５０を記憶する。順序要素の例として、レジスタ、フリップフロップ回路、ラッチが挙げられる。一実施形態では、領域パラメータ１５０は、有効ビット及びメタデータ等のステータス情報１５２を含む。メタデータの例として、データ１２６の作成者の識別子、データ１２６の利用者の識別子、データ１２６のキャッシュコヒーレンシ情報、データ１２６のクリーン／ダーティ情報等が挙げられる。作成者及び利用者の識別子は、処理装置識別子、プロセス識別子、スレッド識別子のうち１つ以上を含む。他の実施形態では、領域パラメータ１５０は、ステータス情報１５２を含まないが、これは、この情報が、キャッシュコントローラの他のキュー及び順序要素に記憶されるためである。

一実施形態では、領域パラメータ１５０は、２つのアドレスを含む。第１のアドレス１５４は、領域１２０の先頭にデータを記憶するメモリ位置を指すアドレス１２２のコピーである。第２のアドレス１５６は、領域１４０の先頭にデータを記憶するメモリ位置を指すアドレス１４２のコピーである。したがって、領域パラメータ１５０は、領域１２０の先頭と領域１４０の先頭との間のメモリマッピングを含む。例えば、領域パラメータ１５０は、現在、アドレス１２２（ｘ）とアドレス１４２（ａ）との間のメモリマッピングを記憶する。いくつかの実施形態では、領域パラメータ１５０は、領域１４０のサイズ１５８も含む。一実施形態では、キャッシュコントローラのロジックは、ステータスフィールド１５２の有効ビットではなく、サイズフィールド１５８の０バイトのサイズ値を使用して、有効領域が最終レベルキャッシュに記憶されていないことを示す。

キャッシュコントローラのロジックは、領域パラメータ１５０を使用して、大きなタグアレイ内のルックアップ動作よりも高速な比較動作によって、最終レベルキャッシュ１３０のキャッシュヒット又はキャッシュミスを決定する。一例では、ロジックは、有効領域が最終レベルキャッシュ１３０に記憶されているかどうかを決定する。ステータスフィールド１５２が使用され、有効ビットが否定される場合、最終レベルキャッシュ１３０に記憶された有効領域がない。ステータスフィールド１５２が使用されず、サイズフィールド１５８が０バイトの値を記憶する場合、最終レベルキャッシュ１３０に記憶された有効領域がない。このような場合、キャッシュコントローラのロジックは、キャッシュミスがあると決定し、要求アドレスを有するメモリアクセス要求を、処理のためにシステムメモリ１１０に送信する。したがって、ロジックは、要求アドレスのインデックスによって選択された大きなタグアレイのセットへのセットアソシアティブルックアップ動作を行うことをスキップし、これにより、メモリアクセス要求を処理するためのレイテンシが短縮される。

ステータスフィールド１５２が使用され、有効ビットがアサートされる場合、又は、ステータスフィールド１５２が使用されず、サイズフィールド１５８が０以外の正の整数を記憶する場合、キャッシュコントローラのロジックは、最終レベルキャッシュ１３０に記憶された有効領域があると決定する。このような場合、キャッシュコントローラのロジックは、アドレス１２２（ｘ）及び領域１４０のサイズ１５８（Ｓ）のうち１つ以上の変化を決定した場合に、アドレスの範囲を決定する。ロジックは、アドレス１２２（ｘ）において始まり、アドレス１２２と領域１４０のサイズ１５８（Ｓ）との合計であるアドレスで終わるようなアドレスの範囲を決定する。図示した実施形態の表記を使用すると、アドレスの範囲は「ｘ＋Ｓ」である。ロジックは、要求アドレスがこの範囲内にあるかどうかを決定する。例えば、要求アドレスが「ｙ」として示される場合、ロジックは、式ｘ＜ｙ＜（ｘ＋Ｓ）が真であるかどうかを決定する。したがって、最終レベルキャッシュ１３０内にキャッシュヒット又はキャッシュミスがあるかどうかを決定するために、ロジックは、要求アドレスを、このアドレスの範囲と比較する。比較動作は、最終レベルキャッシュ１３０のインデックス及びタグのルックアップ動作よりも高速な動作である。

ロジックが、最終レベルキャッシュ１３０のアクセスがキャッシュミスであると決定した場合、キャッシュコントローラは、要求アドレスを有するメモリアクセス要求を、処理のためにシステムメモリ１１０に送信する。しかしながら、ロジックが、最終レベルキャッシュ１３０のアクセスがキャッシュヒットであると決定した場合、ロジックは、最終レベルキャッシュ１３０からデータを取得することによって、メモリアクセス要求を処理する。これを行うために、ロジックは、要求アドレス（ｙ）とアドレス１２２（ｘ）との差（（ｙ－ｘ）として表される）に基づいて、オフセットを決定する。ロジックは、オフセット（ｙ－ｘ）及びアドレス１４２（ａ）（２つの値の合計であり、（ａ＋（ｙ－ｘ）））に基づいて、変換アドレスを決定する。ロジックは、変換アドレス又は（ａ＋（ｙ－ｘ））によって表されるアドレスにおいて始まる最終レベルキャッシュ１３０のデータにアクセスすることによって、メモリアクセス要求を処理する。ロジックは、要求アドレスのインデックスによって選択された大きなタグアレイのセットへのセットアソシアティブルックアップ動作を行うことをスキップする。むしろ、キャッシュヒットを決定するために使用される比較動作の後、単純な算術演算を使用して、要求データを最終レベルキャッシュ１３０に記憶する位置を識別する。

図２を参照すると、コンピューティングシステムでメモリアクセスを効率的に行う方法２００の一実施形態が示されている。説明のために、本実施形態（並びに、図１０及び図１４）のステップは、順番に示されている。しかしながら、説明する方法の様々な実施形態では、説明する１つ以上の要素が同時に実行されてもよいし、図示した順序と異なる順序で実行されてもよいし、全体的に省略されてもよいことに留意されたい。また、他の追加の要素も必要に応じて実行される。本明細書で説明する様々なシステム又は装置の何れも、方法２００，１０００，１４００を実施するように構成されている。

１つ以上の処理装置は、１つ以上のコンピュータプログラム又はソフトウェアアプリケーションを実行する。処理装置の例として、汎用中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）等の内部のプロセッサコアが挙げられる。いくつかの実施形態では、システムインパッケージ（ＳｉＰ）は、処理装置と、オンパッケージの低レイテンシ、高帯域幅メモリと、を含む。このようなメモリの一例は、３ＤＤＲＡＭ等の３Ｄ集積メモリである。一実施形態では、処理装置は、３ＤＤＲＡＭの少なくとも一部をキャッシュとして利用する。一実施形態では、キャッシュは、最終レベルキャッシュである。以下の説明では、低レイテンシ、高帯域幅メモリを最終レベルキャッシュとして使用する場合について説明するが、他の実施形態では、高帯域幅メモリを、第１レベル（Ｌ１）、第２レベル（Ｌ２）又は最終レベル以外のキャッシュメモリ階層の他のレベルとして使用する。処理装置は、最終レベルキャッシュよりも低いレベルのキャッシュメモリサブシステム内のメモリ要求ミスを決定する（ブロック２０２）。

処理装置は、メモリ要求に対応する要求アドレスを最終レベルキャッシュに送信する（ブロック２０４）。一実施形態では、最終レベルキャッシュのキャッシュコントローラ内のロジックは、最終レベルキャッシュの第２の領域に記憶された連続データのコピーを有するシステムメモリ内の連続データの第１の領域の識別情報（identification）を維持する。いくつかの実施形態では、識別情報は、第１の領域の先頭を識別する第１の開始アドレスを含む。さらに、識別情報は、第２の領域のサイズを含む。最終レベルキャッシュのキャッシュコントローラ内のロジックは、この第１の領域のアドレスの範囲、すなわち、システムメモリに記憶された連続データを記憶するメモリ位置を指すシステムメモリアドレス空間内のアドレスの範囲を決定する（ブロック２０６）。この連続データは、最終レベルキャッシュに記憶されたコピーを有する。いくつかの設計では、ロジックは、（図１の）データストレージ１００の説明で上述した式を使用する。

要求アドレスが範囲内にない場合（条件付きブロック２０８：「いいえ」）、ロジックは、要求アドレスを含むメモリ要求をシステムメモリに送信する（ブロック２１０）。メモリ要求に対する最終レベルキャッシュのアクセスがキャッシュミスと見なされるため、メモリ要求は、システムメモリ等のメモリサブシステムの下位レベルに送信される。要求アドレスが選択された範囲内にある場合（条件付きブロック２０８：「はい」）、ロジックは、要求アドレスと、システムメモリの範囲の開始アドレスと、の差に基づいて、オフセットを決定する（ブロック２１２）。ロジックは、オフセット及び最終レベルキャッシュの範囲の開始アドレスに基づいて、変換アドレスを決定する（ブロック２１４）。例えば、変換アドレスは、オフセット及び最終レベルキャッシュの範囲の開始アドレスの合計である。ロジックは、変換アドレスにおいて始まる最終レベルキャッシュのデータにアクセスすることによって、メモリ要求を処理する（ブロック２１６）。

図３を参照すると、低レイテンシ、高帯域幅のキャッシュを利用するコンピューティングシステム３００の一実施形態の一般化されたブロック図が示されている。様々な実施形態では、コンピューティングシステム３００は、システムインパッケージ（ＳｉＰ）３１０等の三次元（３Ｄ）パッケージングを利用する。ＳｉＰ３１０は、メモリバス３５０を介してメモリ３６２及びオフパッケージＤＲＡＭ３７０に接続されている。一実施形態では、コンピューティングシステム３００は、モバイルコンピュータ、スマートフォン又はタブレット内のスタンドアロンシステム、デスクトップ、サーバ等である。ＳｉＰ３１０は、処理装置３２０と、低レイテンシ、高帯域幅のキャッシュ３３０と、を使用する。処理装置３１０及びキャッシュ３３０は、低レイテンシ相互接続３４８を介して通信する。インパッケージの低レイテンシ相互接続３４８は、ＳｉＰを使用しない場合、長いオフチップ相互接続よりも短い長さを有する１つ以上の水平ルート及び／又は垂直ルートを使用する。

いくつかの実施形態では、ＳｉＰ３１０は、３ＤＤＲＡＭ等のＤＲＡＭメモリ技術を利用するが、１つ以上のロウバッファ（row buffers）又は他の同等の構造を含む低レイテンシ、高帯域幅及びロウベースのアクセススキームを使用する他のメモリ技術が可能であり、考えられる。他のメモリ技術の例として、相変化メモリ、スピントルク転送抵抗メモリ、メモリスタ、組み込みＤＲＡＭ（ｅＤＲＡＭ）等が挙げられる。いくつかの設計では、処理装置３２０は、汎用マイクロプロセッサであり、他の設計では、処理装置３２０は、別のタイプの処理装置である。他のタイプの処理装置は、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、追加の処理機能を含むチップである高速処理装置（ＡＰＵ）を含む。この追加の処理機能により、汎用ＣＰＵの外側で１つ以上のタイプの計算が高速化される。一実施形態では、ＡＰＵは、ＧＰＵ、ＦＰＧＡ又は他の処理装置と同じダイに統合された汎用ＣＰＵを含み、消費電力を減らしながら、これらの装置間のデータ転送速度を向上させる。他の実施形態では、ＡＰＵは、ビデオ処理アクセラレータ及び他のアプリケーション固有のアクセラレータを含む。

実行エンジン３２２は、処理装置３２０のタイプに基づいて、１つ以上のプロセッサコアを使用する。さらに、いくつかの設計では、実行エンジン３２２は、通信メッセージを転送するために通信ファブリック（又は、「ファブリック」）を使用する。通信メッセージの例として、コヒーレンシプローブ、割り込み、読み出しアクセスコマンド及び書き込みアクセスコマンド、対応するデータが挙げられる。ファブリックにおける相互接続の例として、バスアーキテクチャ、クロスバーベースアーキテクチャ、ネットワークオンチップ（ＮｏＣ）通信サブシステム、ダイ間の通信チャネル、シリコンインターポーザー、及び、貫通シリコンビア（ＴＳＶ）が挙げられる。多くの設計では、処理装置３２０は、システムバスコントローラをインターフェースロジック３２６に組み込み、インターフェースロジック３２６は、様々なプロトコルの１つを利用して、実行エンジン３２２のプロセッサコアを、メモリ３６２、ＤＲＡＭ３７０、周辺入出力（Ｉ／Ｏ）デバイス及び他の処理装置に接続する。

コンピューティングシステム３００は、オフパッケージメモリ３６２をメインメモリ又はシステムメモリとして使用する。メモリ３６２は、ハードディスクドライブ（ＨＤＤ）及びソリッドステートディスク（ＳＳＤ）の何れかである。オフパッケージＤＲＡＭ３７０は、様々なタイプのＤＲＡＭの何れかである。コンピューティングシステム３００は、オフチップメモリ３６２のデータを、Ｉ／Ｏコントローラとバス３６０及びメモリバス３５０とを介して、オフチップＤＲＡＭ３７０に充填する。インターフェースロジック３６０は、オフパッケージメモリ３６２及びオフパッケージＤＲＡＭ３７０の各々について、通信プロトコル、アドレスフォーマット及びパケットフォーマットをサポートする。

実行エンジン３２２内の各プロセッサコアは、プロセッサコアのメモリレイテンシを短縮するために、１つ以上のレベルのキャッシュメモリサブシステムを使用する。いくつかの設計では、プロセッサコアは、実行エンジン３２２内の共有キャッシュにさらにアクセスする。実行エンジン３２２内のキャッシュメモリサブシステムがプロセッサコアによって要求されたデータを含まない場合、実行エンジン３２２は、メモリアクセス要求をインパッケージキャッシュ３３０に送信する。インターフェースロジック３４０は、インパッケージキャッシュ３３０と処理装置３２０との間で情報を転送するための通信プロトコル、アドレスフォーマット及びパケットフォーマットをサポートする。

他のＤＲＡＭトポロジと同様に、いくつかの設計では、インパッケージキャッシュ３３０は、複数のバンクにセグメント化された複数のメモリアレイ３３２を使用する。このような場合、各バンクは、各々のロウバッファを含む。ロウバッファの各々は、対応するメモリアレイバンク内の複数のロウのうちアクセスされたロウにデータを記憶する。いくつかの実施形態では、キュー３４２、領域パラメータ３４４、及び、領域パラメータ３４４を使用するロジック３４６の一部の機能は、ロジック３３６に配置される。例えば、この機能は、インパッケージキャッシュ３３０のキャッシュコントローラに含まれる。他の実施形態では、この機能は、図示するように、インターフェースロジック３４０に配置される。ロジック３３６及びロジック３４６の各々は、ソフトウェア、組み合わせロジック及び順序要素に使用される回路等のハードウェア、又は、ソフトウェア及びハードウェアの組み合わせによって実装される。

インターフェースロジック３４０がメモリアクセス要求を実行エンジン３２２から受信すると、ロジック３４６は、アクセスタイプに基づいて、受信したメモリアクセス要求を複数のキュー３４２のうち何れかに記憶する。例えば、キュー３４２の第１のキューは、メモリ読み出し要求を記憶し、キュー３４２の第２のキューは、メモリ書き込み要求を記憶する。ロジック３４６内のアービトレーションロジックは、複数のキュー３４２のうち何れかのキューを選択し、選択されたキューからメモリアクセス要求を選択する。選択されたメモリアクセス要求について、ロジック３４６は、領域３３８等のインパッケージキャッシュ３３０の第２の領域に記憶されたデータのコピーを有する、領域３７２等のシステムメモリの第１の領域に対応するアドレスの範囲を決定する。システムメモリは、オフパッケージメモリ３６２及びオフパッケージＤＲＡＭ３７０の組み合わせによって実装される。

ロジック３４６は、メモリアクセス要求の要求アドレスが領域３７２のアドレスの範囲内にないことを決定すると、選択されたメモリアクセス要求をシステムメモリに送信する。ロジック３４６が、要求アドレスが領域３７２のアドレスの範囲内にあると決定した場合、キャッシュコントローラは、インパッケージキャッシュ３３０内のメモリアレイ３３２のデータにアクセスすることによって、選択されたメモリ要求を処理する。ロジック３４６は、上記の決定のために領域パラメータ３４４を使用する。様々な実施形態では、領域パラメータ３４４は、（図１の）領域パラメータ１５０と同等である。

ロジック３４６は、領域３７２のコピーをインパッケージキャッシュ３３０の領域３３８としてオフパッケージシステムメモリに記憶するタイミングを決定するための様々な技術の１つを使用する。いくつかの実施形態では、ロジック３４６は、実行エンジン３２２からのメモリアクセスを監視して、ストリーミングパターン又はシーケンシャルメモリアクセスパターンを検出する。ロジック３４６は、様々な技術のうち何れかを使用して、少なくともハードウェアプリフェッチャによって使用される技術等のストリーミングアクセスパターンを検出する。ロジック３４６がストリーミングパターンを検出すると、ロジック３４６は、新しい領域を定義する。いくつかの実施形態では、メモリ要求が領域３３８の終わりからＬバイト以内にあるアドレスにアクセスすると、ロジック３３６及びロジック３４６の何れかは、領域３３８のサイズをＰバイトだけ拡張させる。ここで、Ｌ及びＰは、０以外の正の整数である。一実施形態では、Ｌ及びＰの値は、制御レジスタ及びステータスレジスタ（ＣＳＲ）３４７内のプログラム可能レジスタに記憶される。いくつかの実施形態では、初期領域サイズも、ＣＳＲ３４７のプログラム可能レジスタに記憶される。

他の実施形態では、ロジック３４６は、インパッケージキャッシュ３３０の領域３３８を定義及び生成するタイミングを決定するためのソフトウェアヒントを使用する。ソフトウェアは、特定の命令を使用して、アプリケーション又はオペレーティングシステムによってアクセスされる特定のレジスタを更新する。さらに、ソフトウェアは、インターフェースロジック３４０の１つ以上の制御レジスタ及びステータスレジスタ（ＣＳＲ）３４７を更新することが可能である。ディープニューラルネットワークを処理する場合、ソフトウェアアプリケーションは、多層ニューラルネットワークの１つの層の処理が終了したタイミングと、多層ネットワークの次の層に移動したタイミングと、を認識する。多層ネットワークの各層が（順方向又は逆方向であるかどうかに関係なく）トラバースされると、ソフトウェアアプリケーションは、ソフトウェアヒントを利用して、処理中のシステムメモリの現在の領域をロジック３４６及びＣＳＲ３４７のうち１つ以上に通知する。いくつかの実施形態では、ソフトウェアアプリケーションは、領域３７２，３３８のサイズを増減するタイミングを示すヒントを提供する。このヒントは、領域３７２及び領域３３８の左方向又は右方向からサイズを変更することも示す。

さらに、ソフトウェアヒントは、システムメモリの別の領域に移動することによって、領域３７２及び領域３３８のコンテンツ全体を変更するタイミングを示す。ＣＳＲ３４７に記憶された制限は、領域３３８がインパッケージキャッシュ３３０のサイズを超えることを抑制する。いくつかの実施形態では、ロジック３４６が既に領域を定義している場合、ロジック３４６は、基準に基づいて、既存領域をサポートするか、新しい領域をサポートするかを選択する。基準の例として、領域のサイズ、領域のデータにアクセスするアプリケーションの優先度、既存の領域のエイジ（age）等が挙げられる。

１つ以上のソフトウェアアプリケーションの実行中に、アプリケーションは、領域３３８のコンテンツを変更する。ロジック３４６が、領域３３８の変更部分が有効でなくなるように領域３３８のサイズ又は一部を調整する場合、ロジック３３６及びロジック３４６の何れかは、変更データをオフパッケージＤＲＡＭ３７０に送信する。いくつかの設計では、ロジック３３６及びロジック３４６の何れかは、ライトスルーキャッシュポリシー又はライトバックキャッシュポリシーを用いてインパッケージキャッシュ３３０を制御する。ライトスルーキャッシュポリシーは、時間の経過とともに、書き込み動作をオフパッケージＤＲＡＭ３７０に分散させる。対照的に、ライトバックキャッシュポリシーは、領域３３８のサイズが減るまで書き込み動作を遅らせる。このようなとき、ロジック３３６又はロジック３４６は、変更データの書き込み動作を、書き込みトラフィックのバーストでオフパッケージＤＲＡＭ３７０に送信する。他の設計では、ロジック３３６及びロジック３４６の何れかは、ライトスルーキャッシュポリシー及びライトバックキャッシュポリシーの組み合わせを用いてインパッケージキャッシュ３３０を制御し、２つのポリシーの利点及びコストをトレードオフする。

上述したように、いくつかの設計では、インパッケージキャッシュ３３０は、例えば、ＳＲＡＭ、相変化メモリ、スピントルク転送抵抗メモリ、メモリスタ、組み込みＤＲＡＭ（ｅＤＲＡＭ）等の低レイテンシ、高帯域幅のメモリ技術を使用する。他の設計では、インパッケージキャッシュ３３０は、低レイテンシ、高帯域幅の３ＤＤＲＡＭを使用する。ここで、図４を参照すると、システムインパッケージ（ＳｉＰ）４００，４４０の実施形態の一般化されたブロック図が示されている。図示したＳｉＰは、１つ以上の三次元集積回路（３ＤＩＣ）を含む。３ＤＩＣは、垂直方向及び／又は水平方向の両方で単一回路に統合されたアクティブな電子部品の２つ以上の層を含む。いくつかの設計では、製造技術が、インターポーザベースの統合を使用することによって、製造技術は、３ＤＩＣを処理装置４２０の隣に配置する。或いは、製造技術は、３ＤＩＣを別のＩＣの上に直接積層する。

ダイスタッキング技術は、高帯域幅及び低遅延の相互接続を含む同じパッケージ内で、複数の別々のシリコン部分（集積チップ）を物理的に積層することを可能にする製造プロセスである。ダイは、シリコンインターポーザー上に並んで積層されるか、互いに上方に垂直に直接積層される。ＳｉＰの１つの構成は、１つ以上のＤＲＡＭチップを処理装置の隣に及び／又はその上に積層することである。積層されたＤＲＡＭチップは、処理装置に非常に大きなキャッシュを提供する。いくつかの設計では、この大きなキャッシュは、数百ＭＢ程度のサイズ（又は、数百ＭＢよりも大きいサイズ）を有する。

図示するように、一実施形態では、ＳｉＰ４００は、処理装置４２０と、水平低レイテンシ相互接続４１０を介して処理装置４２０と通信する１つ以上の三次元（３Ｄ）ＤＲＡＭ４３０，４３２と、を含む。ここでも、処理装置４２０は、汎用ＣＰＵ、グラフィックス処理装置（ＧＰＵ）、加速処理装置（ＡＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は、キャッシュ等のロウベースメモリを利用する他のデータ処理デバイスのうち何れかである。

インパッケージの水平低レイテンシ相互接続４１０は、ＳｉＰを使用しない場合、長いオフチップ相互接続と比較して、相互接続信号の長さを短縮する。インパッケージの水平低レイテンシ相互接続４１０は、チップ（処理装置４２０及び３ＤＤＲＡＭ４３０及び４３２等のチップ）が回路基板の別々のパッケージに搭載されているかのように、特定の信号及びプロトコルを使用する。ＳｉＰ４００は、パッケージ外部接続４１４に達するバックサイドビア又はスルーバルクシリコンビア４１２をさらに含む。パッケージ外部接続４１４は、入力／出力（Ｉ／Ｏ）信号及び電力信号に使用される。

別の実施形態では、ＳｉＰ４４０は、処理装置４２０の上に積層された３ＤＤＲＡＭ４５０を含む。図示されていないが、ＳｉＰ４００及びＳｉＰ４４０の各々について、複数のチップ又はデバイス層が互いに上方に積層され、直接垂直相互接続４１６がこれらを介してトンネリングしている。異なるデバイス層間をトンネリングすることができる垂直相互接続４１６のサイズ及び密度は、３ＤＩＣを製造するために使用される基盤技術に基づいて変化する。

図５を参照すると、データストレージ５００の一実施形態の一般化されたブロック図が示されている。上述した回路及びロジックには、同じ符号が付されている。図示するように、システムメモリ１１０及び最終レベルキャッシュ１３０の各々は、データを記憶する。ここでも、キャッシュ３３０を最終レベルキャッシュとして説明するが、他の実施形態では、キャッシュ３３０は、キャッシュメモリサブシステム内の別のレベルである。データ１２６は、システムメモリ１１０に記憶された連続データである。データ５２６は、領域５２０を生成するためにシステムメモリ１１０の領域に追加された連続データである。システムメモリ１１０の連続データのサイズは、サイズ１２４からサイズ５２４に増大した領域としてコピーされる。

最終レベルキャッシュ１３０は、領域５４０に、領域５２０の連続データ１２６及びデータ５２６のコピーを記憶する。したがって、最終レベルキャッシュ１３０の連続データのサイズは、サイズ１４４からサイズ５４４に増大した領域として維持される。領域パラメータ１５０は、領域５２０及び領域５４０を特徴付ける。開始アドレス１２２及び開始アドレス１４２は、同じままである。したがって、フィールド１５４及びフィールド１５６は、領域パラメータ１５０において変化しないままである。しかしながら、ロジックは、サイズフィールド１５８を増加量に更新する。この例では、ロジックは、サイズフィールド１５８をＳバイトからＳ＋Ｔバイトに更新する。ここで、Ｓ及びＴは、０以外の正の整数である。

図６を参照すると、データストレージ６００の一実施形態の一般化されたブロック図が示されている。上述した回路及びロジックには、同じ符号が付されている。データ１２６は、システムメモリ１１０に記憶された連続データである。データ６２６は、領域６２０を生成するためにシステムメモリ１１０の領域に追加された連続データである。システムメモリ１１０の連続データのサイズは、サイズ１２４からサイズ６２４に増大した領域としてコピーされる。

最終レベルキャッシュ１３０は、領域６４０に、領域６２０の連続データ１２６及びデータ６２６のコピーを記憶する。したがって、最終レベルキャッシュ１３０の連続データのサイズは、サイズ１４４からサイズ６４４及びサイズ６４６の合計のサイズに増大した領域として維持される。連続データは、最終レベルキャッシュ１３０にラップアラウンドされる。領域パラメータ１５０は、領域６２０及び領域６４０を特徴付ける。開始アドレス１２２及び開始アドレス１４２は、同じままである。したがって、フィールド１５４及びフィールド１５６は、領域パラメータ１５０において変化しないままである。しかしながら、ロジックは、サイズフィールド１５８を増加量に更新する。この例では、ロジックは、サイズフィールド１５８をＳバイトからＳ＋Ｔ＋Ｕバイトに更新する。ここで、Ｓ、Ｔ、Ｕは、０以外の正の整数である。

ラップアラウンド領域のアクセスにより、最終レベルキャッシュ１３０の変換アドレスの計算が変わる。一例では、領域６２０は、アドレスが数字で表されるアドレス空間２０００～２７００を使用する。最終レベルキャッシュ１３０全体は、アドレス空間５０００～６０００を使用する。ここで、アドレスも数字として表される。領域６４０は、５５００にラップアラウンドされたアドレス空間５８００を使用する。受信したメモリ要求が要求アドレス２４００を使用する場合、ロジックは、オフセットが（２４００－２０００）、すなわち４００であると決定する。ロジックは、オフセットを領域開始アドレス５８００に追加して（５８００＋４００）、すなわち６２００を取得する。この値は、領域６４０の制限を超えている。これに応じて、ロジックは、差（６２００－６０００）、すなわち２００を決定する。ロジックは、差を開始アドレスに追加して（５０００＋２００）、すなわち５２００を取得する。変換アドレスは５２００であり、ロジックは、変換アドレス５２００を使用して、メモリ要求を処理するために最終レベルキャッシュ１３０からデータにアクセスする。

図７を参照すると、データストレージ７００の一実施形態の一般化されたブロック図が示されている。データストレージ５００，６００及び次のデータストレージ８００～９００，１３００と同様に、上述した回路及びロジックには同じ番号が付されている。図示するように、システムメモリ１１０及び最終レベルキャッシュ１３０の各々は、データを記憶する。この説明では、キャッシュ３３０を最終レベルキャッシュとして説明しているが、他の実施形態では、キャッシュ３３０は、キャッシュメモリサブシステム内の別のレベルである。データ１２６は、システムメモリ１１０に記憶された連続データである。データ７２６は、領域７２０を生成するためにシステムメモリ１１０の領域に追加された連続データである。システムメモリ１１０の連続データのサイズは、サイズ１２４からサイズ７２４に増大した領域としてコピーされる。この増大は、右方向ではなく、左方向である。したがって、領域７２０の先頭にデータを記憶するメモリ位置を指すアドレスは、アドレス１２２（ｘ１）ではなく、アドレス７２２（ｘ２）である。

最終レベルキャッシュ１３０は、領域７４０に、領域７２０の連続データ１２６及びデータ７２６のコピーを記憶する。したがって、最終レベルキャッシュ１３０の連続データのサイズは、サイズ１４４からサイズ７４４に増大した領域として維持される。この増大は、右方向ではなく、左方向である。したがって、領域７４０の先頭にデータを記憶するメモリ位置を指すアドレスは、アドレス１４２（ａ１）ではなく、アドレス７４２（ａ２）である。領域パラメータ１７０は、領域７２０及び領域７４０を特徴付ける。開始アドレス１２２，１４２が変化し、フィールド１５４，１５６は領域パラメータ１５０の変化を示す。また、ロジックは、サイズフィールド１５８を増加量に更新する。この例では、ロジックは、サイズフィールド１５８をＳバイトからＳ＋Ｖバイトに更新する。ここで、Ｓ及びＶは、０以外の正の整数である。

図８を参照すると、データストレージ８００の一実施形態の一般化されたブロック図が示されている。データ１２６は、システムメモリ１１０に記憶された連続データである。データ８２６は、領域８２０を生成するためにシステムメモリ１１０の領域に追加された連続データである。システムメモリ１１０の連続データのサイズは、サイズ１２４からサイズ８２４に増大した領域としてコピーされる。この増大は、右方向ではなく、左方向である。したがって、領域８２０の先頭にデータを記憶するメモリ位置を指すアドレスは、アドレス１２２（ｘ１）ではなく、アドレス８２２（ｘ２）である。

最終レベルキャッシュ１３０は、領域８４０に、領域８２０の連続データ１２６及びデータ８２６のコピーを記憶する。したがって、最終レベルキャッシュ１３０の連続データのサイズは、サイズ１４４からサイズ８４４及びサイズ８４６の合計のサイズに増大した領域として維持される。連続データは、最終レベルキャッシュ１３０にラップアラウンドされる。この増大は、右方向ではなく、左方向である。したがって、領域８４０の先頭にデータを記憶するメモリ位置を指すアドレスは、アドレス１４２（ａ１）ではなく、アドレス８４２（ａ２）である。領域パラメータ１５０は、領域８２０及び領域８４０を特徴付ける。開始アドレス１２２，１４２が変化し、フィールド１５４，１５６は領域パラメータ１５０の変化を示す。また、ロジックは、サイズフィールド１５８を増加量に更新する。この例では、ロジックは、サイズフィールド１５８をＳバイトからＳ＋Ｖ＋Ｗバイトに更新する。ここで、Ｓ、Ｖ、Ｗは、０以外の正の整数である。ラップアラウンド領域のアクセスにより、最終レベルキャッシュ１３０の変換アドレスの計算が変わる。ロジックは、データストレージ６００に対して上述した計算を使用する。

図９を参照すると、データストレージ９００の一実施形態の一般化されたブロック図が示されている。データ１２６は、システムメモリ１１０に記憶された連続データである。データ９２６は、領域９２０を生成するためにシステムメモリ１１０の領域から除去された連続データである。システムメモリ１１０の連続データのサイズは、サイズ１２４からサイズ９２４に減少した領域としてコピーされる。この減少は、左方向ではなく、右方向である。したがって、領域９２０の先頭にデータを記憶するメモリ位置を指すアドレスは、アドレス１２２（ｘ１）ではなく、アドレス９２２（ｘ２）である。

最終レベルキャッシュ１３０は、領域９４０に、領域９２０の連続データ１２６のコピーを記憶する。したがって、最終レベルキャッシュ１３０の連続データのサイズは、サイズ１４４からサイズ９４４に減少した領域として維持される。この減少は、左方向ではなく、右方向である。したがって、領域９４０の先頭にデータを記憶するメモリ位置を指すアドレスは、アドレス１４２（ａ１）ではなく、アドレス９４２（ａ２）である。領域パラメータ１５０は、領域９２０及び領域９４０を特徴付ける。開始アドレス１２２，１４２が変化し、フィールド１５４，１５６は領域パラメータ１５０の変化を示す。また、ロジックは、サイズフィールド１５８を減少量に更新する。この例では、ロジックは、サイズフィールド１５８をＳバイトからＳ－Ｕバイトに更新する。ここで、Ｓ及びＵは、０以外の正の整数である。領域のサイズの減少が、領域の終わりにおいて、右方向ではなく左方向に発生した場合、アドレス１２２，１４２は、サイズフィールド１５８が依然として更新されている間、同じままであることに留意されたい。

図１０を参照すると、コンピューティングシステムでメモリアクセスを行う方法１０００の一実施形態が示されている。ロジックは、メモリアクセスパターンを監視し、及び／又は、データアクセスのソフトウェアヒントを受信する（ブロック１００２）。上述したように、特定の命令をヒントとして使用するソフトウェア技術、ハードウェアプリフェッチャによって使用される技術等のハードウェア技術、又は、これらの組み合わせを使用して、メモリ領域の定義を開始するタイミングを決定する。

ロジックが次のデータアクセスの領域を予測しない場合（条件付きブロック１００４：「いいえ」）、方法１０００の制御フローはブロック１００２に戻り、ロジックは、メモリアクセスパターンを監視し、及び／又は、ソフトウェアヒントを受信する。ロジックが次のデータアクセスの領域を予測する場合（条件付きブロック１００４：「はい」）、ロジックは、予測される次のデータアクセスの領域を特徴付けるパラメータを初期化する（ブロック１００６）。例えば、ロジックは、次のデータアクセスの領域の開始アドレスをシステムメモリに記憶し、この領域の開始アドレスを最終レベルキャッシュに記憶する。さらに、ロジックは、この領域の領域サイズを記憶する。いくつかの実施形態では、初期領域サイズは、複数の制御レジスタ及びステータスレジスタのプログラム可能レジスタに提供される。いくつかの設計では、初期サイズは、キャッシュラインサイズ（例えば、６４バイト）とページサイズ（例えば、４キロバイト以上）との細かい粒度の間のサイズである。

ロジックは、システムメモリ内の次のデータアクセスの領域の連続データのコピーを最終レベルキャッシュに記憶する。例えば、ロジックは、システムメモリの第１の領域のデータのコピーを、最終レベルキャッシュの第２の領域に記憶し（ブロック１００８）、第１の領域及び第２の領域の各々は、システムメモリ内の予測される次のデータアクセスの領域に対応する。ロジックは、第２の領域のデータにアクセスすることによって、第１の領域をターゲットとするメモリ要求を処理する（ブロック１０１０）。ロジックが第２の領域のサイズが変化したことを決定する場合（条件付きブロック１０１２：「はい」）、ロジックは、領域を特徴付けるパラメータを更新して、サイズ変化を示す（ブロック１０１４）。

ロジックが、第２の領域のサイズが変化しないことを決定し（条件付きブロック１０１２：「いいえ」）、第２の領域のアクセスが完了していない場合（条件付きブロック１０１６：「いいえ」）、方法１０００の制御フローはブロック１０１０に戻る。ブロック１０１０では、ロジックは、第２の領域のデータにアクセスすることによって、第１の領域をターゲットとするメモリ要求を処理する。第２の領域のアクセスが完了している場合（条件付きブロック１０１６：「はい」）、ロジックは、領域を特徴付けるパラメータを更新して、領域がないことを示す（ブロック１０１８）。その後、方法１０００の制御フローはブロック１００２に戻り、ロジックは、メモリアクセスパターンを監視し、及び／又は、ソフトウェアヒントを受信する。

図１１を参照すると、データストレージ１１００の一実施形態の一般化されたブロック図が示されている。システムメモリ１１１０及び最終レベルキャッシュ１１３０の各々は、データを記憶する。ここでは、説明を容易にするために、処理装置、通信インターフェース等が示されていない。この説明では、キャッシュ１１３０を最終レベルキャッシュとして説明しているが、他の実施形態では、キャッシュ１１３０は、キャッシュメモリサブシステム内の別のレベルである。データ１１２０～１１２８は、システムメモリ１１１０に記憶された連続データである。最終レベルキャッシュ１１３０は、異なる時点における連続データ１１２０～１１２８の一部のコピーを記憶する。

ある設計例では、大きい（深い）ニューラルネットワークの重みは、システムメモリ１１１０（オフパッケージＤＲＡＭ等）に記憶される。データ１１２０～１１２８等の重みは、最終レベルキャッシュ１１３０（インパッケージの３ＤＤＲＡＭ等）に適合するには大きすぎる。ニューラルネットワークのトレーニング中に、ソフトウェアアプリケーションを実行する処理装置によって重みが評価される。時間ｔ１～１１ｔ７（又は、時間ｔ１～ｔ７）において、最終レベルキャッシュ１１３０に記憶された領域のサイズ及びコンテンツが変化する。データ１１２０は、多層ニューラルネットワークの重みの第１の層に対応する。データ１１２２は、多層ニューラルネットワークの重みの第２の層に対応し、以下同様である。

最初に、データ１１２０は、時間ｔ０（図示省略）で最終レベルキャッシュ１１３０にコピーされる。後の時間ｔ１において、データ１１２２は、最終レベルキャッシュ１１３０に記憶された領域に追加される。同様に、時間ｔ２及びｔ３において、データ１１２４及びデータ１１２６は、最終レベルキャッシュ１１３０に記憶された領域に追加される。ニューラルネットワークの評価が推論又は順方向伝播（forward propagation）によって進行するにつれて、重みを記憶するために、最終レベルキャッシュ１１３０の領域が拡張する。ニューラルネットワークの重みのアクセスは、定期的に予測可能な方法で行われる。したがって、最終レベルキャッシュ１１３０の領域は、重みの評価に十分先立って増加する。上述したように、（図３の）ＣＳＲ３４７のプログラム可能レジスタは、パラメータＬ，Ｐを記憶して、最終レベルキャッシュに記憶された領域のサイズを変更するタイミング及び変更量を示す。したがって、処理装置は、オフパッケージＤＲＡＭ内ではなく、インパッケージの最終レベルキャッシュ内の重みにアクセスする。

時間ｔ３において、最終レベルキャッシュ１１３０全体が満たされる。このとき、キャッシュコントローラ又は処理装置のロジックは、左からサイズを減少することによって領域のサイズを調整する。時間ｔ４において、ロジックは、データ１１２０を最終レベルキャッシュ１１３０の領域から除去する。ロジックは、適宜、領域パラメータを更新する。重みのトレーニングを行うソフトウェアアプリケーションの性質により、処理装置が所定の層を一旦評価すると、対応する重みは、現在の推論又は順方向伝播に再度必要とされない。したがって、いくつかの設計では、重みの所定の層は、最終レベルキャッシュ１１３０の領域から除去される。時間ｔ５において、データ１１２６は、最終レベルキャッシュ１１３０の領域に追加される。領域は、最終レベルキャッシュ１１３０をラップアラウンドする。ラップアラウンド領域のアクセスにより、最終レベルキャッシュ１３０の変換アドレスの計算が変わる。ロジックは、データストレージ６００に対して上述した計算を使用する。

時間ｔ６において、ロジックは、データ１１２２を最終レベルキャッシュ１１３０の領域から除去する。ロジックは、適宜、領域パラメータを更新する。時間ｔ７において、ロジックは、データ１１２８を最終レベルキャッシュ１１３０の領域に追加する。処理装置がニューラルネットワークの最終層を処理した後に、処理装置は最終出力を生成する。処理装置は、通常、この最終出力を期待値と比較して、エラー又は損失を計算する。その後、ニューラルネットワークのトレーニングは、逆方向伝播（backward propagation）フェーズで継続する。逆方向伝搬の間、処理装置は、多層ニューラルネットワークの層を逆の順序で処理する。ロジックは、逆の順序をサポートする方法で、最終レベルキャッシュ１１３０の領域を割り当て及び割り当て解除する。

図１２を参照すると、データストレージ１２００の一実施形態の一般化されたブロック図が示されている。システムメモリ１２１０は、データを記憶する。ここでは、説明を容易にするために、処理装置、通信インターフェース等が示されていない。システムメモリ１２１０は、複数の領域のデータを記憶する。例えば、領域は、アドレス１２１２（ｗ０）が指す第１の領域１２２０と、アドレス１２１４（ｘ０）が指す第２の領域１２２２のデータと、アドレス１２１６（ｙ０）が指す第３の領域１２２４のデータと、アドレス１２１８（ｚ０）が指す第４の領域１２２６のデータと、を含む。

この例では、ソフトウェアアプリケーションは、アドレス１２１８（ｚ０）が指す領域に記憶された出力ベクトルの各要素が、アドレス１２１２～１２１６（ｗ０～ｙ０）が指す他のベクトルの要素の合計であるステンシル状（stencil-like）の計算を行う。例えば、出力ベクトルがベクトル「ｄ」として表され、他の領域のベクトルの各々が「ａ」～「ｃ」として表される場合、ベクトルｄの要素ｄ［ｉ］の値は、ａ［ｉ－１］＋ａ［ｉ］＋ａ［ｉ＋１］＋ｂ［ｉ－１］＋ｂ［ｉ］＋ｂ［ｉ＋１］＋ｃ［ｉ－１］＋ｃ［ｉ］＋ｃ［ｉ＋１］になる。加算器１２３０は、入力ベクトルの要素の値を合計して、出力ベクトルの要素を生成する。多くの場合、何れの入力ベクトルもインパッケージのキャッシュに収まらない。しかしながら、インパッケージキャッシュ内の各領域は、各々のベクトルのアクティブ部を記憶することが可能である。計算が進むにつれて、各領域が更新され、各ベクトルのアクティブな部分が維持される。このようなスキームの例を以下の説明に示す。

図１３を参照すると、データストレージ１３００の一実施形態の一般化されたブロック図が示されている。上述した回路及びロジックには、同じ番号が付されている。最終レベルキャッシュ（ＬＬＣ）１３３０は、システムメモリ１２１０に記憶されたデータのコピーを記憶する。この説明では、キャッシュ１３３０を最終レベルキャッシュとして説明しているが、他の実施形態では、キャッシュ１３３０は、キャッシュメモリサブシステム内の別のレベルである。ここでは、説明を容易にするために、処理装置、通信インターフェース等が示されていない。最終レベルキャッシュ１３３０は、複数の領域のデータを記憶する。領域の例は、アドレス１３３２（ａ０）が指す第１の領域（サイズ１３３４（Ｓバイト）を有する）と、アドレス１３３６（ｂ０）が指す第２の領域（サイズ１３３８（Ｔバイト）を有する）と、アドレス１３４０（ｃ０）が指す第３の領域１２２４（サイズ１３４２（Ｕバイト）を有する）と、アドレス１３４４（ｄ０）が指す第４の領域（サイズ１３４６（Ｖバイト）を有する）と、を含む。

テーブル１３５０は、最終レベルキャッシュ１３３０に記憶された領域の領域パラメータを記憶する。多くの設計では、フィールド１３５２～１３５８は、（図１の）領域パラメータ１５０のフィールド１５２～１５８と同等である。ここでは、テーブル１３５０は、単一領域ではなく、複数の別々の領域をサポートする。図示した実施形態では、テーブル１３５０は、最終レベルキャッシュ１３３０の４つの領域をサポートするための４つの有効な行（エントリ）を含む。４つの領域及びエントリが示されているが、他の例では、任意の数のエントリ及び領域を使用する。複数の領域をサポートするために、ロジックは、テーブル１３５０の情報を維持し、複数の領域が、別の領域をオーバーランすることなく、最終レベルキャッシュ１３３０を増大、縮小、ラップアラウンドすることを確実にする。最終レベルキャッシュ１３３０のメモリアクセス毎に、ロジックは、要求アドレスを、最終レベルキャッシュ１３３０内の有効なサポート領域の各々と比較する。様々な設計では、テーブル１３５０は、フルアソシアティブ方式で情報を記憶する。ここで、要求アドレスは、（フルアソシアティブキャッシュ構造に類似する）領域定義レジスタのＮ個のセットの全てに対してチェックする。

図１４を参照すると、コンピューティングシステムでメモリアクセスを行う方法１４００の一実施形態が示されている。１つ以上の処理装置は、１つ以上のコンピュータプログラム又はソフトウェアアプリケーションを実行する。処理装置の例として、ＣＰＵ、ＧＰＵ、又は、その他の内部のプロセッサコアが挙げられる。いくつかの実施形態では、システムインパッケージ（ＳｉＰ）は、処理装置及び高帯域幅メモリを含む。高帯域幅メモリの一例は、３ＤＤＲＡＭ等の３Ｄ集積メモリである。ある実施形態では、処理装置は、３ＤＤＲＡＭの少なくとも一部をキャッシュとして利用する。処理装置は、最終レベルキャッシュよりも低いレベルのキャッシュメモリサブシステム内のメモリ要求ミスを決定する（ブロック１４０２）。様々な実施形態では、処理装置は、高帯域幅メモリの少なくとも一部を最終レベルキャッシュとして利用する。処理装置は、メモリ要求に対応するアドレスを最終レベルキャッシュに送信する（ブロック１４０４）。

ロジックは、最終レベルキャッシュに記憶されたデータを有する、システムメモリアドレス空間内の１つ以上のアドレス範囲の範囲を選択する（ブロック１４０６）。ロジックが、要求アドレスが選択された範囲内にないことを決定する場合（条件付きブロック１４０８：「いいえ」）であって、最終範囲に到達しない場合（条件付きブロック１４１０：「いいえ」）、方法１４００の制御フローはブロック１４０６に戻る。ブロック１４０６において、ロジックは、１つ以上のアドレス範囲の別の範囲を選択する。ロジックが、要求アドレスが選択された範囲内にないことを決定する場合（条件付きブロック１４０８：「いいえ」）であって、最終範囲に到達する場合（条件付きブロック１４１０：「はい」）、ロジックは、要求アドレスを含むメモリ要求をシステムメモリに送信する（ブロック１４１２）。

ロジックが、要求アドレスが選択された範囲内にあると決定した場合（条件付きブロック１４０８：「はい」）、ロジックは、アドレスとシステムメモリの範囲の開始アドレスとの差に基づいて、オフセットを決定する（ブロック１４１４）。ロジックは、オフセット及び最終レベルキャッシュの範囲の開始アドレスに基づいて、変換アドレスを決定する（ブロック１４１６）。ロジックは、変換アドレスで始まる最終レベルキャッシュのデータにアクセスすることによって、メモリ要求を処理する（ブロック１４１８）。

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令を使用して、上述した方法及び／又はメカニズムを実施する。プログラム命令は、Ｃ言語等の高水準のプログラミング言語でハードウェアの動作を記述している。或いは、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（ＨＤＬ）を使用することができる。プログラム命令は、非一時的なコンピュータ可読記憶媒体に記憶される。多くのタイプの記憶媒体が利用可能である。記憶媒体は、使用中にコンピューティングシステムによってアクセス可能であり、プログラム命令及び付随データをプログラム実行のためにコンピューティングシステムに提供する。コンピューティングシステムは、少なくとも１つ以上のメモリと、プログラム命令を実行する１つ以上のプロセッサと、を含む。

上記の実施形態は、実施形態の非限定的な例に過ぎないことを強調しておきたい。上記の開示が十分に認識されると、当業者には多数の変形及び修正が明らかになるであろう。以下の特許請求の範囲は、このような変形及び修正の全てを包含すると解釈されることが意図されている。

Claims

要求アドレスを含むメモリアクセス要求を受信するように構成されたインターフェースと、
ロジックと、を備え、
前記ロジックは、
キャッシュの第２の領域に記憶された連続データのコピーを有するシステムメモリの連続データの第１の領域の識別情報を維持することであって、前記第１の領域はアドレスの範囲を表し、前記識別情報は、前記第１の領域の先頭を識別する第１の開始アドレスと、前記第２の領域のサイズと、を含む、ことと、
メモリアクセス要求を受信したことに応じて、
前記要求アドレスが前記アドレスの範囲内にないと決定したことに応じて、前記メモリアクセス要求を前記システムメモリに送信することと、
前記要求アドレスが前記アドレスの範囲内にあると決定したことに応じて、前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、
を行うように構成されている、
装置。
前記ロジックは、前記キャッシュのデータにアクセスすることによって、選択されたメモリ要求を処理するために、
前記要求アドレスと前記第１の開始アドレスとの差に基づいて、オフセットを決定することと、
前記オフセットと、前記キャッシュの前記第２の領域の先頭を指す第２の開始アドレスと、に基づいて変換アドレスを決定することと、
前記変換アドレスにおいて始まる前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、
を行うように構成されている、
請求項１の装置。
前記ロジックは、前記変換アドレスが前記キャッシュの前記第２の領域の外側のメモリ位置を指すと決定したことに応じて、
前記第２の領域の最大アドレスを前記変換アドレスから減算することによって、ラップアラウンドアドレスを決定することと、
前記ラップアラウンドアドレスにおいて始まる前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、
を行うように構成されている、
請求項２の装置。
前記ロジックは、
前記第２の開始アドレスを維持することと、
前記変換アドレスを、前記オフセット及び前記第２の開始アドレスの合計として決定することと、
を行うように構成されている、
請求項２の装置。
前記ロジックは、前記第１の領域のサイズが変化していると決定したことに応じて、
前記第１の開始アドレス、前記第２の開始アドレス及び前記第２の領域のサイズのうち１つ以上を更新することと、
前記第２の領域の更新されたサイズに少なくとも部分的に基づいて、前記アドレスの範囲を更新することと、
を行うように構成されている、
請求項４の装置。
前記ロジックは、次のデータアクセスの領域を予測したことに応じて、
前記第１の開始アドレス、前記第２の開始アドレス及び前記第２の領域のサイズのうち１つ以上を初期化することと、
前記システムメモリ内の前記次のデータアクセスの領域の連続データのコピーを前記キャッシュに記憶することと、
を行うように構成されている、
請求項４の装置。
前記データアクセスの領域が定義されたと決定することは、
前記ロジックが、受信したメモリアクセス要求を監視し、前記領域を識別するために使用されるパターンを識別することと、
前記ロジックが、前記領域を識別するヒントをソフトウェアから受信することと、
のうち１つ以上を含む、
請求項６の装置。
前記ロジックは、前記領域に対する次のデータアクセスがないと決定したことに応じて、
前記第２の領域のサイズを０バイトの値に更新することによって、前記キャッシュに領域が記憶されていないことを特定する指標を記憶するように構成されている、
請求項６の装置。
前記ロジックは、前記システムメモリの連続データの複数の領域の識別情報を維持するように構成されており、各領域は、前記キャッシュに記憶された各連続データのコピーを有し、
前記ロジックは、
前記複数の領域毎に複数のアドレス範囲を決定することと、
前記選択されたメモリ要求の要求アドレスが前記複数のアドレス範囲の何れにも含まれていないと決定したことに応じて、前記選択されたメモリ要求をシステムメモリに送信することと、
前記選択されたメモリアクセス要求の要求アドレスが前記複数のアドレス範囲のうち何れかの範囲内にあると決定したことに応じて、前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、
を行うように構成されている、
請求項１の装置。
要求アドレスを含むメモリアクセス要求を受信することと、
キャッシュの第２の領域に記憶された連続データのコピーを有するシステムメモリの連続データの第１の領域の識別情報を維持することであって、前記第１の領域はアドレスの範囲を表し、前記識別情報は、前記第１の領域の先頭にデータを記憶するメモリ位置を指す第１の開始アドレスと、前記第２の領域のサイズと、を含む、ことと、
メモリアクセス要求を受信したことに応じて、
前記要求アドレスが前記アドレスの範囲内にないと決定したことに応じて、前記メモリアクセス要求を前記システムメモリに送信することと、
前記要求アドレスが前記アドレスの範囲内にあると決定したことに応じて、前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、を含む、
方法。
前記方法は、前記キャッシュのデータにアクセスすることによって、選択されたメモリ要求を処理するために、
前記要求アドレスと前記第１の開始アドレスとの差に基づいて、オフセットを決定することと、
前記オフセットと、前記キャッシュの前記第２の領域の先頭を指す第２の開始アドレスと、に基づいて変換アドレスを決定することと、
前記変換アドレスにおいて始まる前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、を含む、
請求項１０の方法。
前記方法は、前記変換アドレスが前記キャッシュの前記第２の領域の外側のメモリ位置を指すと決定したことに応じて、
前記第２の領域の最大アドレスを前記変換アドレスから減算することによって、ラップアラウンドアドレスを決定することと、
前記ラップアラウンドアドレスにおいて始まる前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、を含む、
請求項１１の方法。
前記第２の開始アドレスを維持することと、
前記変換アドレスを、前記オフセット及び前記第２の開始アドレスの合計として決定することと、を含む、
請求項１１の方法。
前記方法は、前記第１の領域のサイズが変化していると決定したことに応じて、
前記第１の開始アドレス、前記第２の開始アドレス及び前記第２の領域のサイズのうち１つ以上を更新することと、
前記第２の領域の更新されたサイズに少なくとも部分的に基づいて、前記アドレスの範囲を更新することと、を含む、
請求項１３の方法。
前記方法は、次のデータアクセスの領域を予測したことに応じて、
前記第１の開始アドレス、前記第２の開始アドレス及び前記第２の領域のサイズのうち１つ以上を初期化することと、
前記システムメモリ内の前記次のデータアクセスの領域の連続データのコピーを前記キャッシュに記憶することと、を含む、
請求項１３の方法。
プログラム命令を記憶するコンピュータ可読記憶媒体であって、
前記プログラム命令は、プロセッサによって実行されると、
要求アドレスを含むメモリアクセス要求を受信することと、
キャッシュの第２の領域に記憶された連続データのコピーを有するシステムメモリの連続データの第１の領域の識別情報を維持することであって、前記第１の領域はアドレスの範囲を表し、前記識別情報は、前記第１の領域の先頭にデータを記憶するメモリ位置を指す第１の開始アドレスと、前記第２の領域のサイズと、を含む、ことと、
前記メモリアクセス要求を受信したことに応じて、
前記要求アドレスが前記アドレスの範囲内にないと決定したことに応じて、前記メモリアクセス要求を前記システムメモリに送信することと、
前記要求アドレスが前記アドレスの範囲内にあると決定したことに応じて、前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、
を前記プロセッサに行わせる、
コンピュータ可読記憶媒体。
前記プログラム命令は、前記キャッシュのデータにアクセスすることによって、選択されたメモリ要求を処理するために、
前記要求アドレスと前記第１の開始アドレスとの差に基づいて、オフセットを決定することと、
前記オフセットと、前記キャッシュの前記第２の領域の先頭を指す第２の開始アドレスと、に基づいて変換アドレスを決定することと、
前記変換アドレスにおいて始まる前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、
を前記プロセッサに行わせる、
請求項１６のコンピュータ可読記憶媒体。
前記プログラム命令は、前記変換アドレスが前記キャッシュの前記第２の領域の外側のメモリ位置を指すと決定したことに応じて、
前記第２の領域の最大アドレスを前記変換アドレスから減算することによって、ラップアラウンドアドレスを決定することと、
前記ラップアラウンドアドレスにおいて始まる前記キャッシュのデータにアクセスすることによって、前記メモリ要求を処理することと、
を前記プロセッサに行わせる、
請求項１７のコンピュータ可読記憶媒体。
前記プログラム命令は、
前記第２の開始アドレスを維持することと、
前記変換アドレスを、前記オフセット及び前記第２の開始アドレスの合計として決定することと、
を前記プロセッサに行わせる、
請求項１７のコンピュータ可読記憶媒体。
前記プログラム命令は、前記第１の領域のサイズが変化していると決定したことに応じて、
前記第１の開始アドレス、前記第２の開始アドレス及び前記第２の領域のサイズのうち１つ以上を更新することと、
前記第２の領域の前記更新されたサイズに少なくとも部分的に基づいて、前記アドレスの範囲を更新することと、
を前記プロセッサに行わせる、
請求項１９のコンピュータ可読記憶媒体。