JP2023540232A

JP2023540232A - 効率的なプロセッシングインメモリのためのハードウェア‐ソフトウェア協働アドレスマッピング方式

Info

Publication number: JP2023540232A
Application number: JP2023513427A
Authority: JP
Inventors: イスラムマーザビーン; アガシャイジーン; ジャヤセーナヌワン; ビー．コトゥラジャガディッシュ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-08-28
Filing date: 2021-08-03
Publication date: 2023-09-22
Also published as: US11797201B2; US20220276795A1; WO2022046371A1; US11487447B2; US20220066662A1; CN116235153A; KR20230056772A; EP4204977A1

Abstract

行競合を低減することによってより高い性能を達成するために、１つのバンクの同じ行において、又は、異なるバンクの同じ行にわたって一緒にアクセスされるデータ要素をマッピングすることを可能にする、ハードウェア‐ソフトウェア協働アドレスマッピング方式を実装するためのアプローチが提供される。イントラバンクフレームストライピングポリシー（ＩＢＦＳ）を使用して、データ要素の対応するサブセットが、バンクの単一の行にインターリーブされる。イントラチャネルフレームストライピングポリシー（ＩＣＦＳ）を使用して、データ要素の対応するサブセットが、チャネルの単一のチャネル行にインターリーブされる。メモリコントローラは、ＩＣＦＳ及び／又はＩＢＦＳを利用して、プロセッシングインメモリ（ＰＩＭ）対応メモリ等のメモリ内のデータ要素を効率的に格納し、アクセスする。【選択図】図１

Description

このセクションに記載されているアプローチは、遂行され得るアプローチであるが、必ずしも以前に着想又は遂行されたアプローチではない。したがって、別段の指示がない限り、このセクションに記載されたアプローチの何れも、単にこのセクションに含まれることによって、従来技術として適格であると仮定すべきではない。更に、このセクションに記載されたアプローチの何れも、単にこのセクションに含まれることによって、よく理解されている、日常的である、又は、従来的であると仮定すべきではない。

ダイナミックランダムアクセスメモリ（ＤＲＡＭ）バンクレベルでのデータアクセスレイテンシは、ＤＲＡＭセル及びサポートする周辺回路の物理的性質のために重要である。各ＤＲＡＭバンクは、それぞれのバンクに格納された２Ｄメモリアレイからの単一の行を一度に読み出すことができる行バッファを含む。バンク内に格納されたデータ要素にアクセスするために、データ要素を含む２Ｄメモリアレイの行がアクティブ化され、次いで、行バッファに読み出される必要がある。次いで、行バッファからデータ要素にアクセスすることができる。別の行に入る任意の次のデータ要素にアクセスするために、次の行がアクティブ化され得る前にプリチャージ動作が実行されなければならない。この状況は、行競合（row-conflict）として一般に知られている。そのような行アクティブ化‐プリチャージ‐アクティブ化サイクルは、格納されたデータの完全性及び電力管理を保証するために従わなければならない数十ナノ秒の厳格なタイミング要件を課す。

行競合を回避する１つの方法は、同じ行から可能な限り多くのデータ要素にアクセスすることである。しかしながら、同じオペレーティングシステムページ又は連続した物理アドレス空間、すなわちフレームに入る隣接データ要素が常に一緒にアクセスされるという保証はない。物理メモリモジュール内のデータ要素、すなわちＤＲＡＭチャネル、バンク、行及び列の配置は、ＤＲＡＭへのアクセスを制御するメモリコントローラによって使用される物理アドレスから物理メモリへのマッピング方式に依存する。一般に、メモリレベル並列性（ＭＬＰ）を達成するために、同じページからのデータ要素は、利用可能な数のチャネルにわたってインターリーブされる。しかしながら、単純なインターリーブは、異なるページからのオペランドを含む演算を実行する場合に、過剰な行競合をもたらす可能性がある。したがって、コンピュータメモリにおける行競合に対処するためのより良いアプローチが必要とされている。

実施形態は、添付の図面において、限定としてではなく例として示されており、同様の符号は同様の要素を指す。

本明細書で説明するような協働アドレスマッピング方式を実装するためのプロセッシングインメモリ（ＰＩＭ）対応メモリに結合されたメモリコントローラを示すブロック図である。２つのチャネルを有するメモリシステムを示す図である。図２に示されたメモリシステム内のインデックス付けのために物理アドレスビットがどのようにマッピングされるかを示す図である。アドレスインターリーブメモリマッピングを有するＰＩＭ対応メモリのチャネル０、バンク０を示す図である。ＩＢＦＳ（イントラバンクフレームストライピング）アドレスマッピングを有するＰＩＭ対応メモリのチャネル０、バンク０を示す図である。アドレスインターリーブメモリマッピングを有するＰＩＭ対応メモリのチャネル０を示す図である。ＩＣＦＳ（イントラチャネルフレームストライピング）アドレスマッピングを有するＰＩＭ対応メモリのチャネル０を示す図である。ＩＢＦＳ及びＩＣＦＳアドレスマッピングを使用してメモリにアクセスするためのアプローチを示すフロー図である。

以下の説明では、説明の目的のために、実施形態の十分な理解を提供するために、多くの具体的な詳細が記載される。しかしながら、これらの特定の詳細なしに実施形態を実施できることは当業者には明らかであろう。他の例では、実施形態を不必要に不明瞭にすることを避けるために、周知の構造及びデバイスがブロック図で示されている。

Ｉ．概要
ＩＩ．アーキテクチャ
ＩＩＩ．アドレスマッピング方式
Ａ．アドレスインターリーブメモリマッピング方式
Ｂ．イントラバンクフレームストライピングポリシー
Ｃ．イントラチャネルフレームストライピングポリシー
Ｄ．実装の詳細
Ｅ．例示的手順
Ｆ．アプリケーション

Ｉ．概要
行競合を低減することによってより高い処理性能を達成するために、１つのバンクの同じ行において、又は、異なるバンクの同じ行にわたって、一緒にアクセスされるメモリ命令によって使用されるデータ要素をマッピングすることを可能にする、ハードウェア‐ソフトウェア協働アドレスマッピング方式を実装するためのアプローチが提供される。一実施形態では、イントラバンクフレームストライピングポリシー（ＩＢＦＳ）を使用して、データ要素の対応するサブセットがバンクの単一の行にインターリーブされる。別の実施形態では、イントラチャネルフレームストライピングポリシー（ＩＣＦＳ）を使用して、データ要素の対応するサブセットが、チャネルの単一のチャネル行にインターリーブされる。メモリコントローラは、ＩＢＦＳ又はＩＣＦＳを利用して、それぞれ、メモリバンク又はチャネル内のＰＩＭ実行ユニットの配置に応じて、メモリ内処理（ＰＩＭ）対応メモリ等のメモリ内のデータ要素を効率的に格納し、アクセスする。

本明細書では、ＰＩＭ対応メモリシステムのコンテキストで実施形態を説明するが、そのような実施形態は、ＰＩＭ対応メモリシステム自体に限定されず、他のメモリシステムに適用することができる。

本明細書で説明するアプローチは、大規模データ構造に対応するデータ要素に同時にアクセスしながら、既存の技法と比較して、それぞれＩＢＦＳポリシー及びＩＣＦＳポリシーを用いた行アクティブ化の数の低減を達成する。そのような低減は、優れたＰＩＭ性能及びエネルギー効率をもたらす。

ＩＩ．アーキテクチャ
図１は、本明細書で説明するような協働アドレスマッピング方式を実装するためのプロセッシングインメモリ（ＰＩＭ）対応メモリ１０４に結合されたメモリコントローラ１０２を示すブロック図である。

図１は、メモリコントローラ１０２及びＰＩＭ対応メモリ１０４を含む。ＰＩＭ対応メモリ１０４は、ＰＩＭ実行ユニット１０６及びメモリ構造１０８を含む。一実施形態では、メモリ構造１０８はバンクを備える。別の実施形態では、メモリ構造１０８は、複数のバンクを含むチャネルを備える。そのような実施形態では、ＰＩＭ実行ユニットは、複数のバンクを有するチャネルを備えるメモリ構造１０８に結合される。

メモリコントローラ１０２は、メモリ構造１０８内のデータ要素の格納及びアクセスを管理するように構成されたマッピングロジック１１０を含む。マッピングロジック１１０を使用して、メモリコントローラ１０２は、メモリ構造１０８内のデータ要素を格納及びアクセスするための特定の行インデックス値及び列インデックス値を識別する。例えば、マッピングロジック１１０は、データ要素を特定の構成でバンクに格納するロジックを提供するイントラバンクフレームストライピング（ＩＢＦＳ）ポリシーを実装してもよい。また、そのようなロジックは、バンクからそのようなデータ要素が格納されると、それらにアクセスするために使用されてもよい。別の例では、マッピングロジック１１０は、特定の構成でチャネルにデータ要素を格納するロジックを提供するイントラチャネルフレームストライピングポリシー（ＩＣＦＳ）を実装してもよい。また、そのようなロジックは、チャネルからそのようなデータ要素が格納されると、それらにアクセスするために使用されてもよい。マッピングロジック１１０は、コンピュータハードウェア、コンピュータソフトウェア、又は、コンピュータハードウェアとコンピュータソフトウェアとの任意の組み合わせによって実装される。いくつかの実施形態では、マッピングロジックは、メモリコントローラ１０２の外部に格納され、本明細書で説明される動作を実行するためにメモリコントローラ１０２によって使用される。

ＰＩＭ対応メモリ１０４は、行デコーダ１１２及び列デコーダ１１４を有するメモリ構造１０８を含む。メモリ構造１０８は、ＰＩＭ実行ユニット１０６に結合されている。行デコーダ１１２は、メモリコントローラ１０２から行インデックス値を受信し、受信した行インデックス値を復号して、受信した行インデックス値に対応するメモリ構造１０８の行を識別するように構成されている。列デコーダ１１４は、メモリコントローラ１０２から列インデックス値を受信し、受信した列インデックス値を復号して、受信した列インデックス値に対応するメモリ構造１０８の列を識別するように構成されている。復号された行インデックス値及び復号された列インデックス値の組み合わせは、メモリ構造１０８の対応するセルから値を取り出すために使用される。セルから取り出された値は、動作に応じて、ＰＩＭ実行ユニット１０６に送られるか、又は、メモリコントローラ１０２に戻される。ＰＩＭ実行ユニットは、値に基づいて結果を生成し、その結果をメモリ構造１０８及び／又はメモリコントローラ１０２に送信するロジックを含む。

いくつかの実施形態において、メモリ構造１０８は、複数のバンクを含むチャネルを備える。そのような実施形態では、別個の行デコーダ１１２及び列デコーダ１１４が、チャネルの複数のバンクの各々に関連付けられている。メモリコントローラ１０２は、複数のバンクからバンクを選択するためにバンクインデックス値を送信し、次いで、行を開き、データ要素にアクセスするために行インデックス値及び列インデックス値を送信するためのロジックを含む。取り出されたデータ要素は、動作に応じて、ＰＩＭ実行ユニット１０６に送られるか、又は、メモリコントローラ１０２に戻される。ＰＩＭ実行ユニットは、データ要素に基づいて結果を生成し、その結果をメモリ構造１０８及び／又はメモリコントローラ１０２に送信するロジックを含む。

ＩＩＩ．アドレスマッピング方式
Ａ．アドレスインターリーブメモリマッピング方式
図２は、２つのチャネル（チャネル０及びチャネル１）を有するメモリシステムを示す図である。各チャネルは、４つのバンク（バンク０、１、２、３）を有する。チャネルごとに１つのランクが存在する、すなわち、各チャネルの４つのバンク全てが１つのランクを構成すると仮定する。各バンクは、４×８メモリアレイを備える。いくつかの実施形態において、各バンクは、個別のＰＩＭ実行ユニットに結合されている。いくつかの実施形態では、チャネルの各バンクは、同じＰＩＭ実行ユニットに結合されている。各メモリ構造の各セルは、１つのデータ要素を保持すると仮定する。したがって、２つのチャネルを有するＰＩＭ対応メモリは、２５６（２×４×４×８）個のデータ要素を格納することができ、８つの物理アドレスビットによって表すことができる。物理アドレス空間が４つのフレーム（フレーム０～３）を有し、４つのページＡ、Ｂ、Ｃ、Ｄがフレーム０～３にそれぞれ配置されていると仮定する。各ページは６４個のデータ要素を有する。アドレスインターリーブメモリマッピング方式では、ページＡ、Ｂ、Ｃ、Ｄからのデータ要素は、チャネルにわたってインターリーブされ、次いで、バンクにわたって各チャネル内にインターリーブされ、次いで、列にわたって各バンク内にインターリーブされ、次いで、行にわたってインターリーブされ、すなわち、インターリーブ順序は、チャネル、バンク、列及び行である。

図２は、各ページからの６４個のデータ要素が、アドレスインターリーブメモリマッピング方式を用いてメモリシステムにわたってどのように分散されるかを示している。例えば、６４個のデータ要素Ａ０～Ａ６３を含むページＡについて、図２は、チャネル０のバンク０の行０、列０においてインデックス付けされたデータ要素Ａ０を示す。データ要素Ａ１は、チャネル１のバンク０の行０、列０に配置されている。データ要素Ａ２は、チャネル０のバンク１の行０、列０に配置されている。データ要素Ａ３は、チャネル１のバンク１の行０、列０に配置されており、以下同様である。

図３は、アドレスインターリーブメモリマッピングを使用して、ＰＩＭ対応メモリ内でインデックス付けするために物理アドレスビットがどのようにマッピングされるかを示す図である。例えば、ビット０はチャネル番号を表す。ビット１及び２は、バンク番号を表す。ビット３～５は列番号を表し、ビット６～７は行番号を表す。

図２に示されるメモリシステムを使用してＰＩＭ演算を実行する一例として、２つの行列を要素ごとに加算し、その結果を第３の行列に格納するＰＩＭ計算が実行されると仮定する。行列はａ、ｂ、ｃとして定義され、個別のアレイに格納され、それぞれページＡ、Ｂ、Ｃに割り当てられる。ページＡ、Ｂ、Ｃ内の全てのデータ要素ｉについて、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］を実行するために、行Ｒ１が開かれて、Ｂのｉ番目のデータ要素が読み出される。この要素は、一時バッファに格納される。行Ｒ２は、Ｃのｉ番目のデータ要素を読み出すために開かれる。次いで、データ要素の加算が実行される。加算の結果は同じ一時バッファに格納される。Ａのｉ番目のデータ要素に結果を格納するために、行Ｒ０が開かれ、結果が格納される。全てのデータ要素が処理されるまで、同じ処理が各バンク内で繰り返される。

したがって、単一の加算演算を実行して１つの結果要素を生成するために、３つの行競合に遭遇する。行競合は、タイミング及びエネルギーの両方の観点から、ＰＩＭ効率を妨げる。この例では、ＰＩＭ算術／論理演算は、単一のメモリクロックサイクルを必要とする可能性があるが、各行競合は、１０秒のメモリクロックサイクルを要する可能性があり、データ要素配置を、高スループットを達成する際のボトルネックにする。

Ｂ．イントラバンクフレームストライピングポリシー
イントラバンクフレームストライピング（ＩＢＦＳ）ポリシーは、連続フレームからのデータ要素を、各バンク内の同じ行の同じ場所に配置するようにマッピングする。データ要素を、実装に応じて異なる方法で同じ場所に配置することができる。例えば、連続フレームからのデータ要素の対応するサブセットは、バンクの単一の行又は複数の行にインターリーブされ得る。ＩＢＦＳは、図２に示される例示的なメモリシステムを参照して説明される。この例では、物理アドレス空間は４つのフレーム、すなわちフレーム０～３を有し、４つのページＡ、Ｂ、Ｃ、Ｄがそれぞれフレーム０～３に割り当てられる。説明を容易にするために、単一のバンクを使用してＩＢＦＳの一例を示す。

図２からのチャネル０のバンク０がＩＢＦＳを示すために使用されると仮定する。図４Ａは、図２に関して説明したようなアドレスインターリーブメモリマッピング方式を有するチャネル０のバンク０を示す。図４Ｂは、ＩＢＦＳアドレスマッピングを有する図４Ａからのチャネル０のバンク０を示す。図４Ｂに示されるように、ＩＢＦＳマッピングでは、ページＡ、Ｂ、Ｃ内の１つのデータ要素ｉについて、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］を実行するために、Ｂのｉ番目のデータ要素を読み出すために１つの特定の行が開かれる。次いで、データ要素は一時バッファに格納される。Ｃのｉ番目のデータ要素も同じ行から読み出される。次いで、データ要素の加算が実行される。加算の結果は同じ一時バッファに格納される。Ａのｉ番目のデータ要素に結果を格納するために、結果は同じ行に格納される。全てのデータ要素が処理されるまで、同じ処理が各バンク内で繰り返される。

したがって、ＩＢＦＳマッピングを使用して、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の演算を実行するために１つの行のみが開かれる必要がある。例えば、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の第１の演算、すなわちｉ＝０の場合の計算の演算を実行するために、行Ｒ０と、行Ｒ０からのデータ要素Ｂ０、Ｃ０、Ａ０のみが必要とされる。更に、ＩＢＦＳマッピングを使用して、例えばｉ＝８の場合、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の第２の演算を、同じ行Ｒ０からのデータ要素Ａ８、Ｂ８、Ｃ８を使用して実行することができる。計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の場合、バンクごとのＰＩＭ構成は、図２のメモリシステムのためのアドレスインターリーブマッピングを使用する以前の技術と比較して、ＩＢＦＳを使用して行競合の数の最大６倍の低減を達成する。したがって、ＰＩＭスループットは、ＩＢＦＳマッピングを使用して大幅に改善される。

ＩＢＦＳポリシーを実装するために、バンクの各行の同じ場所に配置されるフレーム数を示すストライプ数（ＮｏＳ）が定義される。フレームのそのような連続グループの各々は、フレームのスーパーセットと呼ばれる。図４Ｂに示されるように、行Ｒ０は、４つの連続フレームから来る等しい数のデータ要素、すなわち、ページＡ、Ｂ、Ｃ、Ｄの各々からの２つのデータ要素を含む。データ要素は、各ストライプが単一のページからの要素を含む「ストライプ」形態で各行の内側に配置される。図４Ｂに示されるように、ＮｏＳは４であり、各ストライプサイズは２である。ページＡ、Ｂ、Ｃ、Ｄの各々からのデータ要素を保持するために使用される行の全て（例えば、Ｒ０～Ｒ３）は、ＮｏＳ及びストライプサイズパラメータに従い、そのような行のセットは、行のスーパーセットと呼ばれる。したがって、アドレスインターリーブメモリマッピング方式を使用して行Ｒ０に配置されたであろうページＡからの８個のデータ要素（例えば、Ａ０、Ａ８、Ａ１６、Ａ２４、Ａ３２、Ａ４０、Ａ４８、Ａ５６）は、ＩＢＦＳマッピングを使用して、行Ｒ０～Ｒ３のスーパーセット（例えば、Ａ０、Ａ８からＲ０、Ａ１６、Ａ２４からＲ１、Ａ３２、Ａ４０からＲ２、Ａ４８、Ａ５６からＲ３）に分散される。同様に、ページＢ、Ｃ、Ｄからのデータ要素は、スーパーセットの行にわたって分散される。各行内では、異なるフレームから来るデータ要素のストライプ開始位置は、スーパーセット内の第１のフレームに対するフレームの相対位置に依存する。

以下の式は、ＩＢＦＳマッピングに従って物理メモリ内の行インデックス値及び列インデックス値を提供するために使用される。図３に示されるような物理アドレスの同じビットは、行及び列アドレス指定のために使用されるが、ビットを復号するために、異なる式がメモリコントローラによって利用される。以下の式は、オペレーティングシステムのページサイズ及びＮｏＳ等の外部パラメータの関数である。式は柔軟であり、異なるパラメータを有するメモリシステムで使用することができる。ここでは、全てのパラメータが２の累乗であるシステムについて示されている。２の累乗でないパラメータをサポートするための拡張は、当業者には明らかであろう。更に、例示的なメモリシステムパラメータ及びオペレーティングシステムパラメータを、サンプル計算とともに以下に示す。
メモリシステム特有のパラメータ：
バンクサイズ＝３２
トータルバンク＝チャネルごとのバンク×トータルチャネル＝４×２＝８
バンクごとの行＝４
行ごとの列＝８
ＯＳ／ユーザ特有のパラメータ：
フレームサイズ（すなわち、ページサイズ）＝６４
ストライプ数＝４
必要な計算：
ストライプサイズ＝行ごとの列／ストライプ数＝８／４＝２
バンクごとのフレーム＝バンクサイズ／（フレームサイズ／トータルバンク）＝３２／（６４／８）＝４
バンクごとのフレームごとの行＝バンクごとの行／バンクごとのフレーム＝４／４＝１
ＩＢＦＳマッピングのために必要な式：
ＩＢＦＳ列アドレス＝ＩＢＦＳ列ベース＋ＩＢＦＳ列オフセット
ＩＢＦＳ列ベース＝相対フレーム位置×ストライプサイズ＝（フレーム数％ストライプ数）×ストライプサイズ
ＩＢＦＳ列オフセット＝列アドレス％ストライプサイズ
ＩＢＦＳ行アドレス＝ＩＢＦＳ行ベース＋ＩＢＦＳ行オフセット１＋ＩＢＦＳ行オフセット２
ＩＢＦＳ行ベース＝スーパーセット数×バンクごとのフレームごとの行×ストライプ数＝（フレーム数／ストライプ数）×バンクごとのフレームごとの行×ストライプ数
ＩＢＦＳ行オフセット１＝（行アドレス％バンクごとのフレームごとの行）×ストライプ数
ＩＢＦＳ行オフセット２＝列アドレス／ストライプサイズ

いくつかの実施形態では、上記の式について、フレームサイズは、トータルバンク×行ごとの列の倍数である。ストライプ数（ＮｏＳ）は２の累乗であり、最大許容値は行ごとの列の値である。列アドレス及び行アドレスは、それぞれ列アドレスビット及び行アドレスビットによって表される基本２進数（basic binary numbers）を指す。一実施形態では、全ての演算は整数演算である。

Ｃ．イントラチャネルフレームストライピングポリシー
イントラチャネルフレームストライピングポリシー（ＩＣＦＳ）は、連続フレームからのデータ要素を、各チャネルのバンクにわたって対応する行内に同じ場所に配置するようにマッピングする。データ要素を、実装に応じて異なる方法で同じ場所に配置することができる。例えば、連続フレームからのデータ要素の対応するサブセットは、チャネルの単一のチャネル行又は複数のチャネル行にインターリーブされ得る。ＩＣＦＳは、図２に示される例示的なメモリシステムを参照して説明される。この例では、物理アドレス空間は４つのフレーム、すなわちフレーム０～３を有し、４つのページＡ、Ｂ、Ｃ、Ｄがそれぞれフレーム０～３に割り当てられる。説明を容易にするために、単一のチャネルを使用してＩＣＦＳの一例を示す。

図２からのチャネル０がＩＣＦＳを示すために使用されると仮定する。図５Ａは、図２に関して説明したようなアドレスインターリーブメモリマッピング方式を有するチャネル０を示す。図５Ｂは、ＩＣＦＳアドレスマッピングを有する図２からのチャネル０を示す。図５Ｂに示されるように、ＩＣＦＳマッピングを用いて、ページＡ、Ｂ、Ｃ内の１つの要素ｉについて計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］を実行するために、バンク１の１つの特定の行が開かれて、Ｂのｉ番目のデータ要素が読み出される。次いで、データ要素は、一時バッファに格納される。バンク２の１つの特定の行は、Ｃのｉ番目のデータ要素を読み出すために開かれる。次いで、データ要素の加算が実行される。加算の結果は同じ一時バッファに格納される。Ａのｉ番目のデータ要素に結果を格納するために、バンク０の１つの特定の行が開かれ、結果がバンク０のその行に戻されて格納される。

したがって、ＩＣＦＳマッピングを使用して、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の演算を実行するために、３つの異なるバンクにわたる３つの行のみが開かれる必要がある。例えば、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の第１の演算、すなわちｉ＝０の場合の計算の演算を実行するために、対応する行からのデータ要素Ａ０、Ｂ０、Ｃ０に対して、バンク０からの行Ｒ０、バンク１からの行Ｒ０、バンク２からの行Ｒ０のみが必要とされる。更に、ＩＣＦＳマッピングを使用して、例えばｉ＝８、１６、２４、３２、４０、４８、５６である場合、計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の７つの追加の演算が、３つのバンクにわたって同じ行のセットを使用して実行され得る。計算Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］の場合、チャネルごとのＰＩＭシステムは、図２のメモリに対してアドレスインターリーブマッピングを使用する以前の技術と比較して、ＩＣＦＳを使用して行競合の数の最大２４倍の低減を達成する。したがって、ＰＩＭスループットは、ＩＣＦＳマッピングを使用して大幅に改善される。

ＩＣＦＳポリシーを実装するために、「チャネル行」と呼ばれる行のチャネルレベルのビューが利用される。チャネル行は、それぞれのチャネルの全てのバンクからの同じ行を備える。例えば、図５Ｂから、チャネル行は、バンク０からのＲ０、バンク１からのＲ０、バンク２からのＲ０、バンク３からのＲ０を備える。行のチャネルレベルのビューは、ＩＢＦＳマッピングのために利用される「行」又は「バンク行」と呼ばれる行のバンクレベルのビューと対比される。

各チャネル行の同じ場所に配置されるフレーム数を示すストライプ数（ＮｏＳ）が定義される。フレームのそのような連続グループの各々は、フレームのスーパーセットと呼ばれる。上述したように、同じ番号のバンク行の全ては、一緒にチャネル行として見なされ、例えば、バンク０、１、２、３の行Ｒ０は、一緒にチャネル行Ｒ０として見なされる。ＩＣＦＳマッピングでは、バンク行は１つの単一のユニットと見なされ、ストライプサイズはこのユニットを使用して測定される。

図５Ｂに示されるように、チャネル行Ｒ０は、４つの連続フレームからの等しい数のバンク行サイズのデータ要素、すなわち、ページＡ、Ｂ、Ｃ、Ｄの各々からの１つのそのような要素を含み、バンクにわたって「ストライプ」形式で配置され、各ストライプは単一のページからの要素を含む。図５Ｂに示されるように、ＮｏＳは４であり、各ストライプサイズは１である。ページＡ、Ｂ、Ｃ、Ｄの各々からのデータ要素を保持するために使用される全てのチャネル行（Ｒ０からＲ３）は、ＮｏＳ及びストライプサイズパラメータに従い、そのようなチャネル行のセットは、チャネル行のスーパーセットと呼ばれる。したがって、ページＡからの４つのバンク行サイズのデータ要素は、アドレスインターリーブメモリマッピング方式を使用してチャネル行Ｒ０に配置されたはずであり、ＩＣＦＳマッピングを使用してチャネル行Ｒ０～Ｒ３のスーパーセットにわたって（例えば、バンク０のＲ０はチャネル行Ｒ０に、バンク１のＲ０はチャネル行Ｒ１に、バンク２のＲ０はチャネル行Ｒ２に、バンク３のＲ０はチャネル行Ｒ３に）分散される。同様に、ページＢ、Ｃ、Ｄからのデータ要素は、スーパーセットのチャネル行にわたって分散される。各チャネル行内で、異なるフレームから来るデータ要素のストライプ開始位置は、スーパーセット内の第１のフレームに対するフレームの相対位置に依存する。

以下の式は、ＩＣＦＳマッピングに従って物理メモリ内の行インデックス値及びバンクインデックス値を提供するために使用される。図３に示されるような物理アドレスの同じビットが、行及びバンクアドレス指定のために使用されるが、ビットを復号するために、メモリコントローラによって異なる式が利用される。式は、ＯＳページサイズ及びＮｏＳ等の外部パラメータの関数である。式は柔軟であり、異なるパラメータを有するメモリシステムで使用することができる。ここでは、全てのパラメータが２の累乗であるシステムについて示されている。２の累乗でないパラメータをサポートするための拡張は、当業者には明らかであろう。更に、例示的なメモリシステムパラメータ及びオペレーティングシステムパラメータを、サンプル計算とともに以下に示す。
メモリシステムに特有のパラメータ：
チャネルサイズ＝１６
トータルチャネル＝２
チャネルごとのチャネル行＝４
チャネル行ごとのバンク＝４
ユーザによって選択されるパラメータ：
フレームサイズ（すなわち、ページサイズ）＝８
ストライプ数＝４
必要な計算：
ストライプサイズ＝チャネル行ごとのバンク／ストライプ数＝４／４＝１
チャネルごとのフレーム＝チャネルサイズ／（フレームサイズ／トータルチャネル）＝１６／（８／２）＝４
チャネルごとのフレームごとのチャネル行＝チャネルごとのチャネル行／チャネルごとのフレーム＝４／４＝１
ＩＣＦＳマッピングのために必要な式：
ＩＣＦＳバンクアドレス＝ＩＣＦＳバンクベース＋ＩＣＦＳバンクオフセット
ＩＣＦＳバンクベース＝相対フレーム位置×ストライプサイズ＝（フレーム数％ストライプ数）×ストライプサイズ
ＩＣＦＳバンクオフセット＝バンクアドレス％ストライプサイズ
ＩＣＦＳ行アドレス＝ＩＣＦＳ行ベース＋ＩＣＦＳ行オフセット１＋ＩＣＦＳ行オフセット２
ＩＣＦＳ行ベース＝スーパーセット数×チャネルごとのフレームごとのチャネル行ｘストライプ数＝（フレーム数／ストライプ数）×チャネルごとのフレームごとのチャネル行ｘストライプ数
ＩＣＦＳ行オフセット１＝（行アドレス％チャネルごとのフレームごとのチャネル行）ｘストライプ数
ＩＣＦＳ行オフセット２＝バンクアドレス／ストライプサイズ

いくつかの実施形態では、上記の式について、フレームサイズは、トータルチャネル×チャネルごとのバンクの倍数である。ストライプ数（ＮｏＳ）は２の累乗であり、最大許容値はチャネルごとのバンクの値である。バンクアドレス及び行アドレスは、それぞれ、バンクアドレスビット及び行アドレスビットによって表される基本２進数を指す。一実施形態では、全ての演算は整数演算である。

Ｄ．実装の詳細
ＩＢＦＳ及びＩＣＦＳは、既存のポリシーと並んでメモリコントローラに組み込まれる。提供される式は、シフト演算によって効率的に達成され得る、２の累乗の数による除算／乗算／モジュロ演算を含む。メモリコントローラは、非ＰＩＭ／バンクごとＰＩＭ対応／チャネルごとＰＩＭ可能システムに応じて、汎用ＩＢＦＳ及びＩＣＦＳを使用するように構成される。例えば、ＰＩＭ実行ユニットがバンクレベルでメモリ構造に結合されるシステム構成の場合、ＩＢＦＳは、メモリコントローラによって使用されるように選択されてもよい。ＰＩＭ実行ユニットがチャネルレベルでメモリ構造に結合されるシステム構成の場合、ＩＣＦＳは、メモリコントローラによって使用されるように選択されてもよい。

フレームサイズ及びＮｏＳ等のパラメータが、ＩＢＦＳ及びＩＣＦＳを利用したＰＩＭ対応メモリシステムに提供される。フレームサイズの選択は、オペレーティングシステム仕様に従って提供される。ＮｏＳは、システム起動時に（例えば、基本入出力システムを介して）ユーザ選好に従って静的に提供されるか、又は、柔軟性を達成するために動的に提供される。

ＰＩＭ対応メモリシステムがＩＢＦＳ及びＩＣＦＳの利点を活用できるように、オペレーティングシステム及びコンパイラの変更が行われる。オペレーティングシステムは、コンパイラからヒントを受信することによって、互いに関連付けられているメモリ割り当て（ｍａｌｌｏｃｓ）を認識することができる。プログラマは、何れのデータ構造がＰＩＭ計算に関与するかを示すヒントをコンパイラに提供することができる。次いで、コンパイラは、ＰＩＭデータ構造と呼ばれる、ＰＩＭ計算に一緒に参加している関連データ構造を決定する。コンパイラは、そのようなＰＩＭデータ構造のＮｏＳ以下の数を選択し、単一の色を割り当てる。ＰＩＭデータ構造の各セットには、個別の色が割り当てられる。任意のそのようなＰＩＭデータ構造に対してｍａｌｌｏｃ呼び出しが行われる場合にはいつでも、ＰＩＭデータ構造は、仮想アドレス空間内の必要な数のページが割り当てられる。オペレーティングシステムは、それぞれのＰＩＭデータ構造に関連付けられた色である、仮想ページに関連付けられた個別の色について通知される。この時点では、物理メモリ（フレーム）は割り当てられていない。同じセットからの任意の他のＰＩＭデータ構造が割り当てられる場合、同じ処理が行われる。次いで、プログラムがそのようなページにアクセスする場合、オペレーティングシステムは、フレームのスーパーセットのチャンク内の同じ色を有する要求されたページに物理メモリを割り当てる。そのようなデータ構造の各々がｎページを有する場合、フレームの１つのスーパーセットがＰＩＭデータ構造のｉ番目のページに要求に応じて割り当てられ、フレームの別のスーパーセットがＰＩＭデータ構造の（ｉ＋１）番目のページに要求に応じて割り当てられ、ｎ番目のページまで同様である。

例えば、ＰＩＭ計算ａ［］＝ｂ［］＋ｃ［］に対するａ［］、ｂ［］、ｃ［］に対するページ割り当てを考える。各割り当てが４ページを必要とすると仮定する。１２（３×４）ページの全てに赤色が割り当てられる。オペレーティングシステムは、全ての割り当てのページ［ｉ］が類似していること、すなわち、ａ［］のページ［０］の割り当てに対する要求が、ｂ［］及びｃ［］に対するページ［０］の割り当てをトリガすることを確実にする。割り当て要求の全ては、フレームの同じスーパーセットに含まれる連続フレームで満たされる。ｂ［］及びｃ［］のページ［０］の割り当てをトリガする代わりに、ページが要求された場合に割り当てがトリガされる。しかしながら、フレームは、［］のページ［０］が割り当てられているフレームの同じスーパーセット内の割り当てられていないページのために予約される。断片化を回避するために、フレームのスーパーセットの任意の未使用フレームは、将来の要求において割り当てられるようにオペレーティングシステムに戻され得る。

プログラムが仮想アドレスを指定する任意のＰＩＭコマンドを発行すると、通常のアドレス変換処理に従って仮想アドレスが物理アドレスに変換される。物理アドレスは、メモリコントローラがＩＢＦＳ及びＩＣＦＳを使用するように構成されるので、ＰＩＭフレンドリな方法でマッピングされる。

上述したように、ＩＢＦＳ及びＩＣＦＳは、静的方式又は動的方式として実装され得る。静的方式では、ＮｏＳは、ユーザ選好に従って、システム起動時に任意の定数（例えば、２／４／８）に結び付けられる。メモリ構造は指定されたＮｏＳでマッピングされ、マッピングは異なるＮｏＳでシステムを再起動することなく変更することはできない。静的方式は、上で提案されたもの以外の余分なステップを必要としない。

動的方式は、ユーザ選好に従って、ＰＩＭデータ構造に対応するページのためのＰＩＭフレンドリなアドレスマッピング、及び、同時に他のメモリページのための汎用アドレスマッピングを可能にすることによって、メモリマッピングに対する柔軟性及びより微細な程度の制御を提供する。上で提案されたように、コンパイラは、必要なＮｏＳを有する関連するＰＩＭデータ構造の異なるセットを識別し、そのようなセットの各々を個別の色でマークする。任意のそのようなセットのページに対する物理メモリ割り当て時に、上述したオペレーティングシステム割り当て処理は、スーパーセットがＮｏＳ数のフレームを含むように、必要なフレームのスーパーセットを保証する。任意のデータ構造及び／又はページは、その存続期間を通じて１つのＮｏＳ値のみに関連付けられ得る。任意のメモリアクセス、例えば、ストレージファイルからこれらのフレームへの読み出し若しくは書き戻し、又は、プロセッサコアからの任意のアクセスがこれらのページに対して行われる場合にはいつでも、メモリコントローラは、ページの任意の所定の仮想アドレスに対する仮想アドレスから物理メモリアドレスへの変換の後にメモリコントローラにおいて受信される物理メモリアドレスとともに、対応するＮｏＳ情報について常に通知される。メモリコントローラは、そのようなメモリ要求の各々に含まれるＮｏＳ情報を認識し、ＩＢＦＳ又はＩＣＦＳごとに物理メモリアドレスを復号する。したがって、各データ構造／ページのＮｏＳ情報を追跡し、任意のメモリアクセス要求の物理メモリアドレスとともにメモリコントローラに伝達しなければならない。

メモリコントローラへのＮｏＳ情報の伝達を達成するために、４つの可能なアプローチ、（ｉ）命令ベースのアプローチ及び（ｉｉ）ページテーブルエントリ（ＰＴＥ）ベースのアプローチ、（ｉｉｉ）構成レジスタアプローチ、（ｉｖ）モードレジスタベースのアプローチが利用される。命令ベースのアプローチでは、命令セットアーキテクチャ（ＩＳＡ）は、ＰＩＭ計算で使用されるようにユーザによって注釈が付けられた任意のメモリ構造にアクセスするための特殊な読み込み／格納命令を含むように拡張される。コンパイラが、最初に、必要なＮｏＳ情報とともにアクセスされる関連するＰＩＭデータ構造のセットを選択するコンパイラパスにおいて、コンパイラは、例えば、そのシンボルテーブルにおいて、そのような各メモリ構造に対応するＮｏＳ情報を追跡する。後に、これらのメモリ構造に対して、必要に応じて、コンパイラは、命令に埋め込まれたＮｏＳ情報を有する特殊な読み込み／格納命令（例えば、ＬＯＡＤ＿ＰＩＭ、ＳＴＯＲＥ＿ＰＩＭ）を発行する。一実施形態では、一度に１つのＩＢＦＳ又はＩＣＦＳのみをサポートするメモリシステムの場合、ＩＢＦＳ又はＩＣＦＳのうち何れがメモリコントローラによって使用される必要があるかを伝達するために動的指定子は必要とされない。他の実施形態では、ＩＢＦＳ及びＩＣＦＳの両方を動的に可能にするメモリシステムの場合、単一のビットポリシーインジケータ情報が、ＩＢＦＳ又はＩＣＦＳの間で選択するためにメモリコントローラによって使用されるＮｏＳ情報とともに、ＰＩＭデータ構造のための特殊な読み込み／格納命令に埋め込まれる。ポリシーインジケータは、ここで説明したＮｏＳ情報と同様に、コンパイラによって決定され、管理される。

メモリコントローラは、そのような特殊な読み込み／格納コマンドを認識し、受信したコマンドから必要なＮｏＳ情報を見つけて、物理メモリアドレスマッピングをＩＢＦＳ若しくはＩＣＦＳ又は汎用アドレスマッピングに従って正しく復号する機能を備えている。実装の選択に応じて、異なる数のビットを使用してＮｏＳ情報を伝達することができる。例えば、２ビットのみを使用して、１、２、４、８の４つの異なるＮｏＳ値が符号化され、ここで、１のＮｏＳ値は、アドレスインターリーブメモリマッピング方式等のデフォルトマッピングポリシーを示す。ＮｏＳ情報が提供されない通常の読み込み／格納コマンドの場合、メモリコントローラは、１のＮｏＳ値を使用し、アドレスインターリーブメモリマッピング方式等のデフォルトマッピングポリシーにデフォルト設定する。

ＰＴＥベースのアプローチでは、割り当てられたページごとに、ＰＴＥ内のビットのセットを使用して、それぞれのページの対応するＮｏＳ情報を保持する。２ビットのみで、１、２、４、８の４つの異なるＮｏＳ値を符号化することが可能であり、１のＮｏＳ値は、アドレスインターリーブメモリマッピング方式等のデフォルトマッピングポリシーを示す。何れのＰＩＭ計算にも属さない任意の通常のページについても、デフォルトＮｏＳ値１が格納される。ＮｏＳ値を示すＰＴＥ内のこれらのビットは、物理メモリアドレスとともに変換索引バッファ（ＴＬＢ）エントリにキャッシュされる。任意のメモリアクセス要求に対して、物理メモリアドレスとともに、対応するＮｏＳ情報が含まれる。任意のそのようなメモリ要求がメモリコントローラに到達すると、メモリコントローラは、そのようなメモリ要求とともに含まれるＮｏＳ情報を認識し、ＩＢＦＳ若しくはＩＣＦＳ又は汎用アドレスマッピングに従って物理メモリアドレスマッピングを復号する。一実施形態では、一度に１つのＩＢＦＳ又はＩＣＦＳのみをサポートするメモリシステムの場合、ＩＢＦＳ又はＩＣＦＳのうち何れがメモリコントローラによって使用される必要があるかを伝達するために動的指定子は必要とされない。他の実施形態では、ＩＢＦＳ及びＩＣＦＳの両方を動的に可能にするメモリシステムの場合、単一のビットポリシーインジケータ情報が、ＩＢＦＳ又はＩＣＦＳの間で選択するためにメモリコントローラによって使用されるＮｏＳ情報とともに、任意のメモリアクセス要求に含まれる。ポリシーインジケータは、ＰＴＥベースのアプローチにおけるＮｏＳ情報と同様に選択され、管理される。

構成レジスタベースのアプローチでは、ＰＩＭデータ構造を格納する物理メモリアドレスの範囲について、メモリコントローラに関連付けられた１つ以上の構成レジスタが、それぞれの物理アドレス範囲の対応するＮｏＳ情報を保持するために使用される。物理アドレスの範囲へのＰＩＭデータ構造の集約、及び、ＮｏＳ情報を用いた１つ以上の構成レジスタのプログラミングは、ソフトウェア（例えば、オペレーティングシステム）又はハードウェアによって管理される。２ビットのみで、２、４、８、１６の４つの異なるＮｏＳ値を符号化することが可能である。構成レジスタは、ＰＩＭデータ構造を保持するアドレス範囲のみを保持するので、このアプローチは、アドレスインターリーブメモリマッピング方式等のデフォルトマッピングポリシーのためのインジケータを明示的に格納することを必要としない。メモリコントローラで受信された任意のメモリアクセス要求に対して、関連付けられた物理メモリアドレスが、構成レジスタに問い合わせるために使用される。アドレスが１つ以上の構成レジスタにプログラムされた範囲内に入る場合、その構成レジスタからの対応するＮｏＳ情報がメモリアクセスに関連付けられる。ＰＩＭデータ構造にアクセスしない通常のアクセスの場合、構成レジスタはエントリを保持せず、ＮｏＳ値１等のデフォルトマッピングが使用される。メモリコントローラは、ＮｏＳ情報を認識し、ＩＢＦＳ又はＩＣＦＳ若しくは汎用アドレスマッピングに従って物理メモリアドレスマッピングを復号する。メモリシステムがＩＢＦＳ及びＩＣＦＳの両方を動的にサポートする実施形態では、対応する物理アドレス範囲に対してＩＢＦＳ又はＩＣＦＳの何れがメモリコントローラによって使用される必要があるかを示すために、単一のビットポリシーインジケータ情報もＮｏＳ情報とともに構成レジスタ内に保持される。ポリシーインジケータは、構成レジスタベースのアプローチにおけるＮｏＳ情報と同様に選択され、管理される。

モードレジスタベースのアプローチでは、プロセッサ又はハードウェア上で実行されるソフトウェアが、メモリコントローラに関連付けられた単一のモードレジスタに、全ての後続のメモリアクセスのためのＮｏＳ情報を書き込む。２ビットのみで、１、２、４、８の４つの異なるＮｏＳ値を符号化することが可能であり、１のＮｏＳ値は、アドレスインターリーブメモリマッピング方式等のデフォルトマッピングポリシーを示す。一実施形態では、モードレジスタのプログラミングに続く全てのメモリアクセスは、モードレジスタからのＮｏＳ情報を使用する。モードレジスタは、後続のメモリアクセスに関連するＮｏＳ情報を変更するのに必要な頻度でソフトウェアによって更新してもよい。別の実施形態では、単一のモードレジスタの代わりに、メモリコントローラは、システム内の各メモリ要求生成器（例えば、各コア又は各スレッド）のためのモードレジスタを有する。このような実施形態では、各モードレジスタからの設定は、関連するリクエスタから発信されたメモリ要求にのみ適用される。メモリシステムがＩＢＦＳ及びＩＣＦＳの両方を動的にサポートする実施形態では、後続のメモリアクセスのためにＩＢＦＳ又はＩＣＦＳの何れがメモリコントローラによって使用される必要があるかを示すために、単一のビットポリシーインジケータ情報もＮｏＳ情報とともにモードレジスタに書き込まれる。ポリシーインジケータは、モードレジスタベースのアプローチにおけるＮｏＳ情報と同様に選択され、管理される。

提案されたハードウェア／ソフトウェア協働アドレスマッピング方式は、図２のメモリシステムのための以前の方式と比較して、それぞれＩＢＦＳ及びＩＣＦＳポリシーとともにアクセスされる大規模データ構造に対応するデータ要素にアクセスしながら、行アクティブ化の数の低減を提供する。そのような低減は、優れたＰＩＭ性能及びエネルギー効率をもたらす。

Ｅ．例示的手順
図６は、ＩＢＦＳ及びＩＣＦＳアドレスマッピングを使用してメモリにアクセスするためのアプローチを示すフロー図６００である。説明のために、図６は、図１に示されるアーキテクチャに関して説明される。

ステップ６０２において、メモリに格納された複数のデータ要素のうち１つのデータ要素に対するメモリアクセス要求が、メモリコントローラ１０２によって受信される。いくつかの実施形態では、メモリは、メモリ内処理（ＰＩＭ）対応メモリを備える。メモリアクセス要求は、物理メモリアドレス及びストライプ数（ＮｏＳ）値を備える。例えば、ホストプロセッサは、メモリアクセス要求を送信し、その要求をメモリコントローラ１０２に送信する。

一実施形態では、ＮｏＳ値は、特殊命令セットアーキテクチャ（ＩＳＡ）命令から導出される。別の実施形態では、ＮｏＳ値は、ページテーブルエントリ（ＰＴＥ）の１つ以上のビットから導出される。別の実施形態では、ＮｏＳ値は、要求の物理メモリアドレスを含む物理メモリアドレスの範囲に関連付けられた１つ以上の構成レジスタから導出される。別の実施形態では、ＮｏＳ値は、メモリコントローラに関連付けられたモードレジスタから導出される。

ステップ６０４において、マッピングを使用して、行インデックス値及び列インデックス値が、受信された物理メモリアドレス及びＮｏＳ値に基づいてメモリコントローラ１０２によってデータ要素について計算される。例えば、メモリコントローラ１０２は、マッピングロジック１１０を使用して、データ要素の行インデックス値及び列インデックス値を計算する。

一実施形態では、マッピングはＩＢＦＳマッピングを備える。そのような実施形態では、メモリは複数のバンクを備え、複数のバンクの各バンクは、複数の行、複数の列、対応する実行ユニットを含む。いくつかの実施形態において、メモリは、ＰＩＭ対応メモリを備え、対応する実行ユニットは、ＰＩＭ実行ユニットを備える。複数のデータ要素は、複数のバンクのうち特定のバンクについて、計算の個別のオペランドに対応する複数のデータ要素のデータ要素を、特定のバンクの複数の行のうち単一の行にグループ化することによって、メモリに格納される。

別の実施形態では、マッピングはＩＣＦＳマッピングを備える。そのような実施形態では、メモリは複数のチャネルを備え、複数のチャネルの各チャネルは、複数のバンク、複数のチャネル行、対応する実行ユニットを含む。いくつかの実施形態では、メモリはＰＩＭ対応メモリを備え、対応する実行ユニットはＰＩＭ実行ユニットを備える。複数のチャネル行の各チャネル行は、複数のチャネルのそれぞれのチャネルの複数のバンクの全てのバンクからの同じ行を備える。複数のデータ要素は、複数のチャネルのうち特定のチャネルに対して、計算の別個のオペランドに対応する複数のデータ要素のデータ要素を、特定のチャネルに対する複数のチャネル行のうち単一のチャネル行にグループ化することによって、メモリに格納される。

ステップ６０６において、データ要素は、行インデックス値及び列インデックス値に基づいてメモリコントローラ１０２によってメモリから取り出される。一実施形態では、ＩＢＦＳの場合、メモリコントローラ１０２は、行インデックス値を行デコーダ１１２に送信し、列インデックス値を列デコーダ１１４に送信して、行を開き、データ要素にアクセスする。別の実施形態では、メモリ構造１０８は、複数のバンクを有するチャネルとして見られ、ＩＣＦＳの場合、メモリコントローラ１０２は、複数のバンクからバンクを選択するためにバンクインデックス値を送信し、次いで、行を開き、データ要素にアクセスするために行インデックス値及び列インデックス値を送信する。ＰＩＭ実行ユニット１０６は、そのようなデータ要素を集約し、必要な動作を実行し、結果をメモリ構造１０８及び／又はメモリコントローラ１０２に送信する。

一実施形態では、一度にＩＢＦＳ又はＩＣＦＳのうち１つのみをサポートするメモリシステムの場合、ＩＢＦＳ又はＩＣＦＳのうち何れがメモリコントローラによって使用される必要があるかを伝達するために動的指定子は必要とされない。他の実施形態では、ＩＢＦＳ及びＩＣＦＳの両方を動的に許可するメモリシステムの場合、ポリシーインジケータ情報は、ＩＢＦＳ又はＩＣＦＳの間で選択するためにメモリコントローラによって使用されるＮｏＳ情報とともに伝達される。ポリシーインジケータ情報は、本明細書で説明するＮｏＳ情報と同様に決定され、管理される。

Ｆ．アプリケーション
いくつかの実施形態では、ＩＢＦＳ及びＩＣＦＳ等の技術は、種々の機械学習（ＭＬ）アプリケーションに適用される場合に、有用であり得る。例えば、ディープニューラルネットワーク（ＤＮＮ）を実装するＭＬアプリケーションは、一般に、２つの大きな行列を要素ごとに加算し、その結果を別の行列に格納する（例えば、Ａ［ｉ］＝Ｂ［ｉ］＋Ｃ［ｉ］）等の演算を使用する。複数のレイヤを構成要素として有する残差ユニットを使用するＤＮＮでは、各残差ユニットの１つのレイヤが要素ごとの行列加算演算を実行してもよい。ＩＢＦＳ及びＩＣＦＳ技術を使用して、そのような行列のデータ要素の対応するサブセット（例えば、Ａ［］、Ｂ［］、Ｃ［］）が同じＤＲＡＭバンクレベル行又はチャネルレベル行においてインターリーブされる場合、要素ごとの行列加算演算を実行するためにこれらのデータ要素にアクセスする間に遭遇する行競合はより少なくなる。したがって、ＩＢＦＳ及びＩＣＦＳは、ＤＮＮがより少ない行競合で同じ動作を実行することを可能にし、様々なＭＬアプリケーションの速度を効果的に向上させる。

Claims

メモリコントローラであって、
マッピングロジックを備え、
前記マッピングロジックは、
複数のデータ要素がメモリに格納されている場所を判定することであって、前記メモリは複数のバンクを有し、前記複数のバンクの各バンクは、複数の行と、複数の列と、対応する実行ユニットと、を含む、ことと、
前記複数のバンクのうち特定のバンクについて、前記複数のデータ要素のうちデータ要素の対応するサブセットを、前記特定のバンクの前記複数の行のうち単一の行にインターリーブすることと、
を行うように構成されている、
メモリコントローラ。
前記実行ユニットは、前記特定のバンクの前記複数の行のうち前記単一の行にインターリーブされたデータ要素の前記対応するサブセットに基づいて、計算の第１の演算を実行し、
前記実行ユニットは、前記特定のバンクの前記複数の行のうち前記単一の行にインターリーブされたデータ要素の前記対応するサブセットに基づいて、前記計算の追加の演算を実行する、
請求項１のメモリコントローラ。
前記マッピングロジックは、
前記複数のデータ要素のうち特定のデータ要素に対するメモリアクセス要求であって、物理メモリアドレス及び関連付けられたストライプ数（ＮｏＳ）値を含むメモリアクセス要求に応じて、前記ＮｏＳ値に基づいて前記物理メモリアドレスを復号して、前記特定のデータ要素のバンクインデックス、行インデックス値及び列インデックス値を生成するように更に構成されている、
請求項１のメモリコントローラ。
前記複数のデータ要素のうちデータ要素の前記対応するサブセットは、前記複数のバンクのうち前記特定のバンクの前記複数の行のうち単一の行の同じ場所に配置するフレーム数を定義するストライプ数（ＮｏＳ）値に基づいて、前記特定のバンクに格納される、
請求項１のメモリコントローラ。
前記ＮｏＳ値は、特殊命令セットアーキテクチャ（ＩＳＡ）命令、ページテーブルエントリ（ＰＴＥ）の１つ以上のビット、構成レジスタの１つ以上のビット、又は、モードレジスタの１つ以上のビットのうち１つ以上から導出される、
請求項４のメモリコントローラ。
前記複数のバンクのうち前記特定のバンクの前記複数の行の各行の同じ場所に、各行に対応する前記ＮｏＳ値に基づいて、複数のフレームが配置される、
請求項４のメモリコントローラ。
前記複数のバンクのうち前記特定のバンクの前記複数の行の各行は、前記複数のフレームの各フレームからの前記複数のデータ要素のうち１つ以上のデータ要素を含み、
前記複数のバンクのうち前記特定のバンクの前記複数の行の各行は、前記複数のフレームの各フレームからの等しい数のデータ要素を含む、
請求項６のメモリコントローラ。
前記メモリは、プロセッシングインメモリ（ＰＩＭ）対応メモリを備え、前記実行ユニットは、ＰＩＭ実行ユニットを含む、
請求項６のメモリコントローラ。
メモリコントローラであって、
マッピングロジックを備え、
前記マッピングロジックは、
複数のデータ要素がメモリに格納されている場所を判定することであって、前記メモリは複数のチャネルを有し、前記複数のチャネルの各チャネルは、複数のバンクと、複数のチャネル行と、対応する実行ユニットと、を含む、ことと、
前記複数のチャネル行の各チャネル行は、前記複数のチャネルの各チャネルの前記複数のバンクの全てのバンクからの同じ行を含み、
前記複数のチャネルのうち特定のチャネルについて、前記複数のデータ要素のうちデータ要素の対応するサブセットを、前記特定のチャネルの前記複数のチャネル行のうち単一のチャネル行にインターリーブすることと、
を行うように構成されている、
メモリコントローラ。
前記実行ユニットは、前記特定のチャネルの前記複数のチャネル行のうち前記単一のチャネル行にインターリーブされたデータ要素の前記対応するサブセットに基づいて、計算の第１の演算を実行し、
前記実行ユニットは、前記特定のチャネルの前記複数のチャネル行のうち前記単一のチャネル行にインターリーブされたデータ要素の前記対応するサブセットに基づいて、前記計算の追加の演算を実行する、
請求項９のメモリコントローラ。
前記マッピングロジックは、
前記複数のデータ要素のうち特定のデータ要素に対するメモリアクセス要求であって、物理メモリアドレス及びストライプ数（ＮｏＳ）値を含むメモリアクセス要求に応じて、前記ＮｏＳ値に基づいて前記物理メモリアドレスを復号して、前記特定のデータ要素のバンクインデックス値と行インデックス値とを生成するように更に構成されている、
請求項９のメモリコントローラ。
前記複数のデータ要素のうちデータ要素の前記対応するサブセットは、前記複数のチャネルの各チャネルの前記複数のチャネル行のうち単一のチャネル行の同じ場所に配置するフレーム数を定義するストライプ数（ＮｏＳ）値に基づいて、前記特定のチャネルに格納される、
請求項９のメモリコントローラ。
前記ＮｏＳ値は、特殊命令セットアーキテクチャ（ＩＳＡ）命令、ページテーブルエントリ（ＰＴＥ）の１つ以上のビット、構成レジスタの１つ以上のビット、又は、モードレジスタの１つ以上のビットのうち１つ以上のから導出される、
請求項１２のメモリコントローラ。
各チャネル行に対応する前記ＮｏＳ値に基づいて、前記複数のチャネルのうち前記特定のチャネルの前記複数のチャネル行の各チャネル行の同じ場所に、各チャネル行に対応する前記ＮｏＳ値に基づいて、複数のフレームが配置される、
請求項１２のメモリコントローラ。
前記特定のチャネルの前記複数のチャネル行の各チャネル行は、前記複数のフレームの各フレームに関連付けられた前記複数のデータ要素のうち１つ以上のデータ要素を含み、
前記特定のチャネルの前記複数のチャネル行の各チャネル行は、前記複数のフレームの各フレームからの等しい数のデータ要素を含む、
請求項１４のメモリコントローラ。
前記メモリは、プロセッシングインメモリ（ＰＩＭ）対応メモリを備え、前記実行ユニットは、ＰＩＭ実行ユニットを含む、
請求項１４のメモリコントローラ。
方法であって、
メモリに格納された複数のデータ要素のうち１つのデータ要素に対するメモリアクセス要求を受信することであって、前記メモリアクセス要求は、物理メモリアドレス及びストライプ数（ＮｏＳ）値を含む、ことと、
前記物理メモリアドレス及び前記ＮｏＳ値に基づいて、前記データ要素のインデックス値を計算することと、
前記インデックス値に基づいて、メモリ構造から前記データ要素を取り出すことと、を含む、
方法。
前記インデックス値は、前記データ要素の行インデックス値、及び、列又はバンクインデックス値を含み、
前記データ要素は、前記行インデックス値、及び、前記列又は前記バンクインデックス値に基づいて、前記メモリ構造から取り出される、
請求項１７の方法。
前記メモリは、プロセッシングインメモリ（ＰＩＭ）対応メモリを備える、
請求項１７の方法。
前記メモリは複数のバンクを備え、前記複数のバンクの各バンクは、複数の行と、複数の列と、対応する実行ユニットと、を含み、
前記複数のデータ要素は、前記複数のバンクのうち特定のバンクについて、前記複数のデータ要素のうちデータ要素の対応するサブセットを、前記特定のバンクの前記複数の行のうち単一の行にインターリーブすることによって、前記メモリに格納される、
請求項１７の方法。
前記メモリは複数のチャネルを備え、前記複数のチャネルの各チャネルは、複数のバンクと、複数のチャネル行と、対応する実行ユニットと、を含み、
前記複数のチャネル行の各チャネル行は、前記複数のチャネルの各チャネルの前記複数のバンクの全てのバンクからの同じ行を含み、
前記複数のデータ要素は、前記複数のチャネルのうち特定のチャネルについて、前記複数のデータ要素のデータ要素の対応するサブセットを、前記特定のチャネルの前記複数のチャネル行のうち単一のチャネル行にインターリーブすることによって、前記メモリに格納される、
請求項１７の方法。