JP2024511751A

JP2024511751A - プロセッシングインメモリ同時処理システム及び方法

Info

Publication number: JP2024511751A
Application number: JP2023556927A
Authority: JP
Inventors: アンバーハッサーンムハンマド; エル．チュウマイケル; アジアシュウィン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2021-03-30
Filing date: 2022-03-29
Publication date: 2024-03-15
Also published as: US11468001B1; US20230099163A1; EP4315041A1; US20220318012A1; CN117377943A; US11868306B2; WO2022212383A1; KR20240004361A

Abstract

処理システム（１００）は、処理モジュール（１０４、１０６）及びメモリデバイス（１１２）を含む。メモリデバイスは、処理モジュールの代わりに処理動作を実行するプロセッシングインメモリ（ＰＩＭ）モジュール（１２０）を含む。ＰＩＭモジュールの命令セットアーキテクチャ（ＩＳＡ）は、処理モジュールのＩＳＡよりも少ない命令を有する。処理モジュールから受信された命令は、ＰＩＭモジュールの処理リソースが仮想化されるように変換される。結果として、ＰＩＭモジュールは、処理モジュールの複数のスレッド又はアプリケーションに対する処理動作を同時に実行する。【選択図】図２

Description

処理システムは、多くの場合、プロセッサ（例えば、中央処理ユニット（ＣＰＵ）又はグラフィックス処理ユニット（ＧＰＵ））によって比較的迅速にアクセスされ得るローカルメモリリソースと、アクセスするのに比較的長い時間を要する外部メモリリソースと、を含む。場合によっては、外部メモリリソースは、プロセッサとは異なるチップ上に配置される。しかしながら、場合によっては、より長いアクセス時間に起因して、外部メモリリソースに記憶されたデータを伴う命令は、処理するのに望ましくないほど長い時間を要する。加えて、場合によっては、外部メモリリソースとプロセッサとの間のデータ通信は、望ましくない量の相互接続容量を消費する。場合によっては、外部メモリリソースへのアクセス数を低減するために、プロセッサにデータをもたらすのではなく、外部メモリリソースにおいてデータを処理するために、プロセッシングインメモリ（ＰＩＭ）回路が使用される。ＰＩＭ回路は、より一般的なプロセッサの電力消費又は面積使用なしに、外部メモリリソースに記憶されたデータに対して制限された処理アプリケーションを実行する。結果として、場合によっては、プロセッサと外部メモリリソースとの間の通信の数が低減され、外部メモリリソースに記憶されたデータを伴ういくつかの命令の処理時間が低減される。しかしながら、この制限されたアーキテクチャのために、複数のカーネルを同時に処理するためにハードウェア並列性を利用することが困難である。例えば、仮想化の欠如に起因して、ＰＩＭ回路は、一度に１つのカーネルのコマンドのみをロードし、場合によっては、データ依存性に起因してシリアル化ボトルネック（serialization bottleneck）を生成する。

１つの一般的な態様では、メモリデバイスは、処理ユニットで実行されるプログラムの代わりにデータを記憶するように構成された複数の記憶デバイスを含み、処理ユニットはメモリデバイスの外部にあり、プロセッシングインメモリ（ＰＩＭ）モジュールは、処理ユニットからのプログラムに対応するカーネル命令に応じてＰＩＭコマンドを処理するように構成されており、ＰＩＭコマンドを含み、ＰＩＭモジュールによって実装される命令セットアーキテクチャ（ＩＳＡ）は、処理ユニットによって実装されるＩＳＡよりも少ない命令を有し、ＰＩＭモジュールの処理リソースは、ＰＩＭモジュールが複数のＰＩＭカーネルからのＰＩＭコマンドを同時に処理するように仮想化されるように構成されている。

別の一般的な態様によれば、方法は、プロセッシングインメモリ（ＰＩＭ）演算論理ユニット（ＡＬＵ）において、処理ユニットから、ＰＩＭＡＬＵによって同時に処理される複数のカーネルのためのカーネル命令を受信することを含み、ＰＩＭＡＬＵによって実装される命令セットアーキテクチャ（ＩＳＡ）は、処理ユニットによって実装されるＩＳＡよりも少ない命令を有する。本方法は、ＰＩＭコマンド記憶（ＰＣＳ）モジュールからカーネル命令に対応するＰＩＭＡＬＵコマンドを取り出すことを更に含み、少なくとも１つのＰＩＭ命令は、少なくとも２つのカーネルに対応する。また、本方法は、ＰＩＭＡＬＵを含むメモリのレジスタバンクにカーネルのうち少なくとも２つのためのデータを記憶することを含む、ＰＩＭＡＬＵコマンドを実行することを含む。

更に別の一般的な態様によれば、システムは、複数のプログラムを実行するように構成された処理ユニットを含む。システムは、処理ユニットからカーネル命令を受信するように構成されたメモリデバイスを更に含み、カーネル命令は、メモリデバイスのプロセッシングインメモリ（ＰＩＭ）モジュールに、複数のＰＩＭカーネルに対するＰＩＭコマンドを同時に処理させ、ＰＩＭコマンドを同時に処理することは、仮想レジスタバンクとして動作するように構成されたメモリデバイスの複数の記憶デバイスにＰＩＭカーネルの少なくともいくつかに対するデータを記憶することを含み、ＰＩＭコマンドを含み、ＰＩＭモジュールによって実装される命令セットアーキテクチャ（ＩＳＡ）は、処理ユニットによって実装されるＩＳＡよりも少ない命令を有する。

本開示は、添付の図面を参照することによってより良好に理解され、その多くの特徴及び利点が当業者に明らかになる。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による、ＰＩＭ同時処理システムのブロック図である。いくつかの実施形態による、ＰＩＭアーキテクチャのブロック図である。いくつかの実施形態による、例示的な仮想－物理カーネルレジスタマッピングのブロック図である。いくつかの実施形態による、例示的なカーネル命令マージ及びマッピングのブロック図である。いくつかの実施形態による、ＰＩＭ同時処理システムを使用して複数のカーネルのためのカーネル命令を同時に処理する方法のフロー図である。

処理システムは、処理ユニットと、処理ユニットの外部のメモリデバイスと、を含む。メモリデバイスは、処理システムの代わりにデータを処理するプロセッシングインメモリ（ＰＩＭ）モジュールを含む。ＰＩＭモジュールの命令セットアーキテクチャ（ＩＳＡ）は、場合によっては、ＰＩＭコマンドが処理ユニットのＩＳＡの命令のサブセットであるように、処理ユニットのＩＳＡよりも小さい。例えば、場合によっては、ＰＩＭモジュールは、演算論理ユニット（ＡＬＵ）である。結果として、ＧＰＵ等の別のプロセッサに命令を送信するＣＰＵ等のプロセッサと比較して、更なる命令がＰＩＭモジュールに送信される。いくつかの実施形態において、更なる命令は、実行されるＰＩＭコマンドを示すカーネル命令として送信される。カーネル命令に応じて、ＰＩＭモジュールは、メモリデバイスに記憶されたデータを使用してＰＩＭコマンドを処理する。

場合によっては、ＰＩＭモジュールは、複数のアプリケーションのＰＩＭコマンド、又は、同じアプリケーションの異なるスレッドを同時に処理する。アドレス仮想化は、一般に、複数のアプリケーションが単一のアドレスを使用しようとすることによるエラーを防止し、アプリケーションが物理アドレスの使用により他のアプリケーションに関する情報を受信することによる潜在的なセキュリティ問題を低減するために使用される。しかしながら、アドレス仮想化は、処理ユニットと比較してＰＩＭモジュールが比較的単純であるために、いくつかのＰＩＭモジュールでは困難である。結果として、これらのＰＩＭモジュールは、リソース（例えば、ＰＩＭモジュール及びレジスタファイル等の関連する記憶デバイス）へのアクセスをシリアルに与える。いくつかの実施形態では、インスタントメモリデバイスは、ＰＩＭモジュールの代わりに仮想－物理レジスタマッピングを実行し、メモリデバイスにおけるレジスタアドレス仮想化を可能にし、ＰＩＭモジュールが複数のカーネルを同時に処理することを可能にするＰＩＭカーネルスケジューラを更に含む。

ＰＩＭコマンドは、ＰＩＭコマンド記憶（ＰＣＳ）モジュールに記憶される。しかしながら、いくつかの実施形態では、ＰＣＳモジュール内の記憶空間が制限されている。結果として、場合によっては、ＰＩＭカーネルスケジューラは、複数の命令セットが同じ動作を要求するか否かを識別するために、着信カーネル命令を更に分析する。同じ動作が要求されていることを検出したことに応じて、ＰＩＭカーネルスケジューラは、カーネル命令を組み合わせ、ＰＣＳモジュールに単一のＰＩＭコマンドのみを記憶させる。結果として、ＰＣＳモジュールによるリソース利用が増加する。更に、いくつかの実施形態では、複数のカーネルの命令が同時にＰＣＳモジュールに記憶されるように、ＰＣＳアドレスが仮想化される。したがって、場合によっては、同じ動作が複数のカーネルによって要求されていることを検出したことに応じて、ＰＩＭカーネルスケジューラは、複数のカーネルからのカーネル命令を組み合わせる。

本明細書で使用される場合、「同時に処理する」とは、別のアプリケーション又はカーネルの一部の開始後であるが完了前に、アプリケーション又はカーネルの少なくとも一部を実行することを指す。例えば、第２のカーネルの一部が第１のカーネルの第１の部分に続いて実行されるが、第１のカーネルの第２の部分の前に実行されるように、２つのカーネルの一部がインターリーブ方式で実行される場合、第１のカーネル及び第２のカーネルは「同時に処理される」と考えられる。別の例として、第１のカーネルの一部がパイプラインの第１の部分にあり、第２のカーネルの一部がパイプラインの第２の部分にあるパイプライン化されたプロセッサは、２つのカーネルを「同時に処理」していると考えられる。２つのアプリケーション又はカーネルは、「同時に処理される」と考えられるために、全く同じハードウェアデバイスによって全くの同時に処理される必要はない。

本明細書で説明される技術は、異なる実施形態では、様々な並列プロセッサ（例えば、ベクトルプロセッサ、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）、汎用ＧＰＵ（general-purpose GPU、ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（artificial intelligence、ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等）の何れかを使用して用いられる。説明を容易にするために、本明細書では、処理モジュールが用いられる例示的なシステム及び方法を参照する。しかしながら、本明細書で説明するシステム及び技術は、別段の記載がない限り、他のタイプの並列プロセッサの使用にも等しく適用されることが理解されよう。

図１は、少なくともいくつかの実施形態による、ＰＩＭモジュールにおいてアプリケーションを同時に処理する処理システム１００を示している。処理システム１００は、処理モジュール１０４～１０６、１つ以上のメモリコントローラ１０８、及び、１つ以上のＩ／Ｏハブ１１０等の複数の処理モジュールを含む、処理システム１００の様々なコンポーネントを相互接続するために使用されるデータファブリック１０２を含む。各メモリコントローラ１０８自体は、システムメモリ１１２に結合され、各Ｉ／Ｏハブ１１０は、Ｉ／Ｏデバイス１１４、１１５等の１つ以上のＩ／Ｏデバイスに結合されている。少なくとも１つのシステムメモリ１１２は、ＰＩＭモジュール１２０を含む。

処理モジュール１０４～１０６は、１つ以上のプロセッサコア及びローカルキャッシュ階層を含む。プロセッサコアは、例えば、ＣＰＵコア、ＧＰＵコア、ＤＳＰコア、並列プロセッサコア、又は、それらの組み合わせを含む。処理クライアントのローカルキャッシュ階層は、１つ以上のレベルのキャッシュを含む。いくつかの実施形態では、処理モジュール１０４～１０６のうち少なくとも１つは、処理モジュール１０４～１０６のうち少なくとも１つの他の処理モジュールと異なる（すなわち、処理モジュール１０４～１０６は異種である）。他の実施形態では、処理モジュール１０４～１０６は同種である。場合によっては、図２を参照して以下で更に説明するように、処理モジュール１０４～１０６のうち１つ以上は、処理モジュール１０４～１０６の代わりにタスクを実行する１つ以上のコプロセッサを含む。

メモリコントローラ１０８は、対応するシステムメモリ１１２と処理システム１００の他のコンポーネントとの間のインターフェースとして動作する。したがって、処理クライアントのローカルキャッシュ階層にキャッシュされるデータは、通常、「キャッシュライン」と称されるデータのブロックとして操作され、システムメモリ１１２の物理アドレスを使用してメモリ階層にアドレス指定されるか、又は、別様に配置される。キャッシュラインは、処理クライアントからのアクセス要求に応じて、メモリコントローラ１０８によってシステムメモリ１１２からアクセスされ、キャッシュラインは、処理クライアントの１つ以上のキャッシュにインストール又はキャッシュされる。同様に、変更されたデータを含むキャッシュラインが処理クライアントのローカルキャッシュ階層から追い出され（エビクトされ）、したがってシステムメモリ１１２内で更新される必要がある場合、メモリコントローラ１０８は、このライトバックプロセスを管理する。更に、図２～図５を参照して以下で説明するように、場合によっては、ＰＩＭモジュール１２０は、処理モジュール１０４～１０６のうち１つ以上に代わってデータを処理する。いくつかの実施形態において、処理システム１００は、複数のシステムメモリ１１２を含む。加えて、いくつかの実施形態において、システムメモリ１１２は、複数のＰＩＭモジュール１２０を含む。

Ｉ／Ｏデバイス１１４、１１５は、ＤＭＡアクセス動作を使用して処理システム１００との間でデータを転送するように動作する。例えば、Ｉ／Ｏデバイス１１４、１１５のうち何れかは、データを受信及び送信するためにノードをネットワークに接続するためのネットワークインターフェースカード（network interface card、ＮＩＣ）、又は、処理モジュール１０４～１０６によって使用される比較的大量のデータの不揮発性記憶のためのハードディスクドライブ（hard disk drive、ＨＤＤ）若しくは他の大容量記憶デバイス等を含むことができる。少なくとも１つの実施形態では、Ｉ／Ｏハブ１１０は、Ｉ／Ｏデバイス１１４、１１５を管理し、データファブリック１０２とＩ／Ｏデバイス１１４、１１５との間のインターフェースとして機能する。例示するために、いくつかの実施形態では、Ｉ／Ｏハブ１１０は、Ｉ／Ｏデバイス１１４、１１５とデータファブリック１０２との間のＰＣＩｅインターコネクトとして動作するように、ペリフェラルコンポーネントインターコネクトエクスプレス（Peripheral Component Interconnect Express、ＰＣＩｅ）ルートコンプレックスを含む。

一般的な動作概要として、データファブリック１０２は、処理システム１００の他のコンポーネント間で、及び、処理システム１００と他のノード１４１との間で、コマンド、データ、要求、ステータス通信及び他のシグナリングをトランスポートする。これらのトランスポート動作の１つのそのようなサブセットは、処理モジュール１０４～１０６のうち１つ以上による使用のためにシステムメモリ１１２においてＩ／Ｏデバイス１１４、１１５によって提供されるデータの記憶である。図２～図５に関して更に説明するように、場合によっては、システムメモリ１１２に記憶されたデータは、データファブリック１０２を介して処理モジュール１０４～１６のうち１つ以上から送信されたカーネル命令に応じて、ＰＩＭモジュール１２０を使用して処理される。Ｉ／Ｏエージェント１４０は、Ｉ／Ｏハブ１１０及びＩ／Ｏデバイス１１４、１１５のためのコヒーレントエージェントとして動作する。更に、いくつかの実施形態では、トランスポート層１３０は、１つ以上のブリッジコンポーネント又はコヒーレントエージェント（図示せず）を介して、１つ以上の他のノード１４１の対応するトランスポート層又は処理モジュール１０４～１６に結合される。様々な実施形態では、データファブリック１０２は、ＨｙｐｅｒＴｒａｎｓｐｏｒｔ（商標）仕様又はＩｎｆｉｎｉｔｙＦａｂｒｉｃ（商標）仕様等の１つ以上の標準化された相互接続仕様と互換性がある。

図２は、いくつかの実施形態による、処理システム１００のＰＩＭアーキテクチャ２００のブロック図である。他の実施形態では、ＰＩＭアーキテクチャ２００は、処理システム１００に対して更なるコンポーネント又はより少ないコンポーネントを含む異なる処理システムに対応する。図示した実施形態では、ＰＩＭアーキテクチャは、少なくとも処理モジュール１０４及びシステムメモリ１１２を含む。処理モジュール１０４は、共同処理モジュール２０２を含む。システムメモリ１１２は、メモリモジュール２１０を含む。メモリモジュール２１０は、ＰＣＳモジュール２１２、ＰＩＭカーネルスケジューラ２１４、記憶デバイス２１６、ストレージマップ２１８、及び、ＰＩＭモジュール１２０を含む。図示した実施形態は、コンポーネントの特定の構成を示すが、様々な実施形態では、コンポーネントの他の組み合わせが考えられる。例えば、いくつかの実施形態において、システムメモリ１１２は、単一のメモリモジュール２１０のみを含む。別の例として、いくつかの実施形態では、処理モジュール１０４は、共同処理モジュール２０２を含まない。更に、いくつかの実施形態では、バッファ又はデータファブリック１０２等の更なるコンポーネントが考えられるが、説明を容易にするために示されていない。

処理モジュール１０４は、様々なプログラムを実行する。これらのプログラムのうち少なくともいくつかのためのデータは、システムメモリ１１２に（例えば、記憶デバイス２１６に）記憶される。場合によっては、処理モジュール１０４とシステムメモリ１１２との間でデータ要求及び応答を繰り返し送信するのではなく、システムメモリ１１２において（例えば、ＰＩＭモジュール１２０のうち１つ以上を使用して）少なくともいくつかの処理機能を実行する決定が行われる。したがって、処理モジュール１０４、又は、場合によって共同処理モジュール２０２は、カーネル命令２０４をシステムメモリ１１２に送信する。図示した実施形態では、カーネル命令２０４は、複数のアプリケーション、単一のアプリケーション内の異なるスレッド、又は、その両方に対応し、システムメモリ１１２内の個別のＰＩＭカーネルとして実行される。いくつかの実施形態において、処理モジュール１０４は、いくつかのカーネル命令（例えば、ＰＩＭモジュール１２０のＩＳＡの一部ではないカーネル命令、又は、ＰＩＭモジュール１２０が実行する帯域幅を有さないカーネル命令）を更に実行する。

図示した実施形態では、カーネル命令２０４は、１つ以上のコマンドインデックス２０６及び１つ以上のバンクローカルアドレス２０８を含む。コマンドインデックス２０６は、ＰＩＭモジュール（例えば、ＰＩＭモジュール１２０－１）によって実行されるＰＩＭコマンドを示す。場合によっては、コマンドインデックス２０６は、それぞれの命令識別子を介して実行されるそれぞれのＰＩＭコマンドを示す。更に、図３を参照して以下で説明するように、場合によっては、コマンドインデックス２０６の少なくともいくつかは、ＰＩＭコマンドを実行することの一部として使用されるシステムメモリ１１２内（例えば、記憶デバイス２１６－２内）のレジスタを示す仮想レジスタアドレスを含む。バンクローカルアドレス２０８は、ＰＩＭコマンドがメモリ動作（例えば、ロード動作）を実行する場合にアクセスする、システムメモリ１１２の記憶デバイス（例えば、記憶デバイス２１６－１）内の１つ以上のメモリアドレスを示す。いくつかの実施形態では、バンクローカルアドレス２０８は、フルメモリアドレスである。他の実施形態では、バンクローカルアドレス２０８は、システムメモリ１１２によって（例えば、メモリアレイのベースアドレスをデータ要素のインデックスに追加することによって）変更又は生成される。ＰＩＭモジュール１２０は、例えば、処理モジュール１０４～１０６と比較して、より小さいＩＳＡ及びより少ないハードウェアリソースを有するので、いくつかの実施形態では、個別のカーネル命令２０４が各ＰＩＭコマンドに対して送信される（例えば、１つのカーネル命令がロード動作を実行するために送信され、第２のカーネル命令が加算動作を実行するために送信される）。いくつかの実施形態では、１つのアプリケーション又は複数のアプリケーションのためのカーネル命令２０４の複数のセット（例えば、５つのカーネル命令又は５０のカーネル命令）が一緒に送信され、場合によっては、複数のＰＩＭコマンドが、ＰＩＭモジュール１２０のうち１つ以上による処理のために、ＰＣＳモジュール２１２のそれぞれのエントリに記憶される。しかしながら、いくつかの実施形態では、処理リソース（例えば、ＰＣＳモジュール２１２内の記憶空間）が制限され、したがって、カーネル命令２０４のより小さいグループが送信される。加えて、上述したように、場合によっては、いくつかのカーネル命令が処理モジュール１０４で実行される。更に、場合によっては、少なくともいくつかのＰＩＭコマンドは、類似の動作を実行するために処理モジュール１０４で実行される対応する命令とは異なる。結果として、場合によっては、コマンドインデックス２０６は、処理モジュール１０４において、対応するＰＩＭコマンドに変換される。他の実施形態では、ＰＩＭカーネルスケジューラ２１４は、カーネル命令２０４によって示されるコマンドを対応するＰＩＭコマンドに変換する。

システムメモリ１１２は、１つ以上のメモリモジュール２１０を含む。様々な実施形態において、メモリモジュール２１０は、同じアプリケーション又は異なるアプリケーションのための動作を実行する。いくつかの実施形態において、メモリモジュール２１０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイスである。しかしながら、他の実施形態では、メモリモジュール２１０は、他のタイプのメモリデバイス（例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）メモリデバイス、フラッシュメモリデバイス等）である。いくつかの実施形態において、メモリモジュール２１０は、同じタイプのメモリデバイスである。他の実施形態では、メモリモジュール２１０は、異なるメモリデバイスである。いくつかの実施形態では、メモリモジュール２１０のうち１つ以上は、より少ない又は更なるコンポーネントを含む。例えば、いくつかの実施形態において、ＰＩＭカーネルスケジューラ２１４－１は、メモリモジュール２１０－１及び２１０－２の両方に対応し、メモリモジュール２１０－２は、ＰＩＭカーネルスケジューラ２１４－２を含まない。いくつかの実施形態において、メモリモジュール２１０は、記憶デバイス２１６においてレジスタバンクとして編成された（例えば、物理的に編成された、又は、仮想的に編成された）それぞれのレジスタを含む。他の実施形態では、レジスタは、メモリモジュール２１０のうち１つ以上に関連付けられた１つ以上の個別のデバイスの一部である。

ＰＣＳモジュール２１２は、ＰＩＭコマンドを記憶し、実行のためにＰＩＭコマンドを１つ以上のＰＩＭモジュール１２０に送信する。図４の例で更に説明するように、いくつかの実施形態では、ＰＣＳモジュール２１２のうち１つ以上が仮想化される。例えば、場合によっては、ＰＣＳモジュール２１２－２は、ＰＩＭモジュール１２０－２によって実行されるＰＩＭコマンドのシーケンスを記憶し、ＰＩＭコマンドは、複数のそれぞれのアプリケーションに対応する複数のＰＩＭカーネルの一部である。

ＰＩＭカーネルスケジューラ２１４は、１つ以上のＰＣＳモジュール２１２の仮想化を管理する。例えば、上述したように、コマンドインデックス２０６は、実行されるそれぞれのＰＩＭコマンドを示す。いくつかの実施形態において、ＰＩＭカーネルスケジューラ２１４－２は、ＰＣＳモジュール２１２－２を投入（ポピュレート）し、ＰＩＭモジュール１２０－２にアドレス指定されたコマンドインデックス２０６をＰＣＳモジュール２１２－２内の位置に変換し、それぞれの位置は、対応するＰＩＭコマンドを記憶する。加えて、いくつかの実施形態では、ＰＩＭカーネルスケジューラ２１４のうち１つ以上は、ストレージマップ２１８－２、ＰＩＭコマンドによって使用されるデータが記憶される（例えば、記憶デバイス２１６－２の）物理レジスタを示す仮想－物理マッピングテーブルを維持し、投入する。いくつかの実施形態において、ストレージマップ２１８のうち１つ以上は、それぞれのＰＩＭモジュール１２０に物理的に近い（例えば、同じチップ上の）記憶デバイスに記憶される。いくつかの実施形態では、ストレージマップ２１８のうち１つ以上は、メモリモジュール２１０とは別であるが、１つ以上のメモリモジュール２１０に関連付けられる。

いくつかの実施形態では、ＰＣＳモジュール２１２を投入する間のＰＣＳリソース使用量を低減するために、ＰＩＭカーネルスケジューラ２１４は、少なくとも２つのＰＩＭカーネルに対応する少なくとも２つのカーネル命令２０４の部分を組み合わせる。例えば、図４を参照して以下で更に説明するように、２つのカーネル命令がＰＩＭモジュール１２０－１から「ＬＯＡＤＲ０←［ＡＤＤＲ］」を要求する場合、ＰＩＭカーネルスケジューラ２１４－１は、ＰＣＳモジュール２１２－１に「ＬＯＡＤＲ０←［ＡＤＤＲ］」の単一の指標のみを投入し、したがって、ＰＣＳモジュール２１２－１の記憶空間を節約し、ＰＣＳモジュール２１２－１がプログラムされる回数を低減する。加えて、いくつかの実施形態では、ＰＣＳモジュール２１２、ＰＩＭカーネルスケジューラ２１４、又は、両方のうち１つ以上は、複数のＰＩＭモジュール１２０間で共有される。したがって、いくつかの実施形態では、ＰＩＭカーネルスケジューラは、ＰＩＭモジュール１２０－１及び１２０－２の各々が、異なるＰＩＭカーネルに対して「ＬＯＡＤＲ０←［ＡＤＤＲ］」を実行することを検出し、「ＬＯＡＤＲ０←［ＡＤＤＲ］」の単一の指標のみをＰＣＳモジュール２１２－１に記憶する。

様々な実施形態において、ＰＩＭカーネルスケジューラ２１４は、ＰＩＭモジュール１２０においてスケジューリングするＰＩＭカーネルの組み合わせを更に決定し、場合によっては、少なくともいくつかのＰＩＭコマンドの実行を遅延させる。これらの組み合わせは、ＰＩＭカーネル間のそれぞれのカーネル命令の共通性、ＰＩＭカーネルのそれぞれの優先順位、ＰＩＭカーネルの予想されるリソース使用量（例えば、ＰＩＭモジュール使用量、メモリ帯域幅使用量、通信帯域幅等）、（例えば、処理モジュール１０４から受信した依存性グラフに示される）ＰＩＭカーネルの依存性等の様々な要因を示す組み合わせメトリックに基づいて決定される。いくつかの実施形態では、組み合わせは、処理モジュール１０４によって（例えば、コンパイラから）示される。他の実施形態では、組み合わせは、ＰＩＭカーネルの依存性グラフを受信すること等によって、実行時にＰＩＭカーネルスケジューラ２１４によって決定される。また、ＰＩＭコマンドの順序は、ＰＩＭカーネル間のそれぞれのカーネル命令の共通性、ＰＩＭカーネルのそれぞれの優先順位、ＰＩＭカーネルの予想されるリソース使用量、ＰＩＭカーネルの依存性（例えば、処理モジュール１０４から受信された依存性グラフに示される）、又は、対応するカーネル命令が受信された時間等の様々な要因に基づいて決定される。

ＰＩＭモジュール１２０は、ＰＣＳモジュール２１２からＰＩＭコマンドを受信し、場合によっては記憶デバイス２１６及び記憶デバイス２１６のレジスタに記憶されたデータを使用して、それらのＰＩＭコマンドを処理する。いくつかの実施形態において、ＰＩＭモジュール１２０のうち１つ以上は、演算論理ユニット（ＡＬＵ）である。加えて、いくつかの実施形態では、記憶デバイス２１６は、ＰＩＭモジュール１２０のための物理レジスタバンク又は仮想レジスタバンクとして編成されたレジスタファイルである。場合によっては、レジスタバンクの少なくともいくつかのレジスタが第１のカーネルに割り当てられ、レジスタバンクの少なくともいくつかのレジスタが第２のカーネルに割り当てられる。（例えば、カーネル命令２０４を介した）処理モジュール１０４からの要求に応じて、ＰＩＭモジュール１２０は、データを処理モジュール１０４に返す。したがって、メモリモジュール２１０の処理リソースは、場合によっては、ＰＩＭモジュール１２０が複数のＰＩＭカーネルを同時に処理するように仮想化される。

いくつかの実施形態では、１つ以上のストレージマップ２１８及び１つ以上のストレージマップ２１８に対応するＰＩＭカーネルスケジューラ２１４の一部は、処理モジュール１０４上のスクラッチパッドに記憶される。結果として、これらの実施形態では、カーネル命令２０４がシステムメモリ１１２に送信される前に、バンクローカルアドレス２０８上で変換が行われる。

図３は、少なくともいくつかの実施形態による、例示的な３００仮想－物理カーネルレジスタマッピング３１０を示している。上述したように、いくつかの実施形態では、仮想－物理カーネルレジスタマッピング３１０は、図２のＰＩＭカーネルスケジューラ２１４－１等のＰＩＭカーネルスケジューラ２１４によって実行される。図示した例３００では、カーネル１仮想レジスタマップ３０２及びカーネル２仮想レジスタマップ３０４は、ＰＩＭカーネルスケジューラ２１４において受信される。カーネル１仮想レジスタマップ３０２の命令によって示されるレジスタは、Ｒ０、Ｒ１、Ｒ２である。ＰＩＭカーネルスケジューラ２１４は、受信された仮想レジスタアドレスを物理レジスタアドレス［０］、［２］、［７］にそれぞれ変換し、レジスタアドレスは、記憶デバイス２１６－１のレジスタ等のように、ＰＩＭカーネルスケジューラ２１４に関連付けられた記憶デバイス内のアドレスに対応する。同様に、カーネル２仮想レジスタマップ３０４の命令によって示されるレジスタは、Ｒ０、Ｒ１、Ｒ２、Ｒ３である。ＰＩＭカーネルスケジューラは、これらの受信された仮想レジスタアドレスを物理レジスタアドレス［３］、［４］、［８］、［９］にそれぞれ変換する。したがって、ＰＩＭモジュールは、仮想インデックスを示すカーネル命令を処理することができる。加えて、場合によっては、少なくともいくつかのレジスタが第１のカーネルに割り当てられ、少なくともいくつかのレジスタが第２のカーネルに割り当てられる。

図４は、少なくともいくつかの実施形態による、カーネル命令マージ及びマッピング４２０の例４００を示している。上述したように、いくつかの実施形態では、マージ及びマッピング４２０は、図２のＰＩＭカーネルスケジューラ２１４－２等のＰＩＭカーネルスケジューラによって実行される。図示した例４００では、カーネル１命令４０２及びカーネル２命令４０４の各々は、それぞれのインデックスに対応する。ＰＣＳモジュール２１２－２等のＰＣＳモジュールに記憶する前に、命令がマージされて、ＰＣＳモジュール内のストレージ利用率を低減する。したがって、カーネル１命令４０２及びカーネル２命令４０４の両方の「ＬＯＡＤＲ０←［ＡＤＤＲ］」は、カーネル１命令インデックス４０６及びカーネル２命令インデックス４０８内の物理インデックス０にマージされる。加えて、ＰＩＭカーネルスケジューラは、命令の順序を決定し、ＰＣＳマージされたカーネルコンテンツ４１０をもたらす。結果として、カーネル１命令４０２及びカーネル２命令４０４は、示された順序でＰＩＭモジュール１２０－２等のＰＩＭモジュールによって同時に処理される。個々のＰＩＭカーネルのためのバンクローカルアドレスは、ホスト命令によって生成され、それぞれのＰＣＳモジュールインデックスとともに送信されるので、場合によっては、同じＰＣＳモジュールエントリが複数のカーネルによって使用されても、異なる物理レジスタが使用される。したがって、ＰＩＭモジュールは、複数のカーネルに対するカーネル命令を同時に処理することができ、ＰＣＳモジュールのリソース消費が低減される。

図５は、いくつかの実施形態による、ＰＩＭ同時処理システムを使用して複数のカーネルのためのカーネル命令を同時に処理する方法５００を示すフロー図である。いくつかの実施形態では、方法５００は、コンピュータ可読記憶媒体によって記憶された１つ以上の命令に応じて、１つ以上のプロセッサによって開始される。

ブロック５０２において、ＰＩＭＡＬＵによって同時に処理される複数のカーネルのためのカーネル命令が受信される。例えば、ＰＩＭモジュール１２０－１によって処理される複数のカーネルに対応するカーネル命令２０４は、処理モジュール１０４から受信され、ＰＩＭモジュール１２０－１によって実装されるＩＳＡは、処理モジュール１０４によって実装されるＩＳＡよりも少ない命令を有する。ブロック５０４において、カーネル命令によって示されるコマンドの仮想レジスタアドレスが、物理レジスタアドレスに変換される。例えば、ＰＩＭカーネルスケジューラ２１４－１は、カーネル命令２０４によって示される仮想レジスタアドレスを、記憶デバイス２１６－１のレジスタの物理レジスタアドレスに変換する。

ブロック５０６において、カーネル命令によって示されるＰＩＭコマンドの少なくともいくつかがマージされる。例えば、ＰＩＭカーネルスケジューラ２１４－１は、カーネル命令２０４によって示されるＰＩＭコマンドを分析し、組み合わせメトリックに基づいて少なくともいくつかのＰＩＭコマンドをマージする。ブロック５０８において、変換されマージされたコマンドがＰＣＳモジュールに記憶される。例えば、変換されマージされたコマンドは、ＰＣＳモジュール２１２－１に記憶される。ブロック５１０において、少なくとも１つのマージされたコマンドが取り出され、実行される。例えば、少なくとも２つのＰＩＭカーネルに対応する少なくとも１つのＰＩＭコマンドが、ＰＣＳモジュール２１２－１から取り出され、実行のためにＰＩＭモジュール１２０－１に送信される。したがって、複数のカーネルに対するカーネル命令を同時に処理する方法が示される。

いくつかの実施形態では、コンピュータ可読記憶媒体は、コンピュータシステムに命令及び／又はデータを提供するために使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。かかる記憶媒体には、限定されるものではないが、光学媒体（例えば、コンパクトディスク（compact disc、ＣＤ）、デジタル多用途ディスク（digital versatile disc、ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、又は、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）又はキャッシュ）、不揮発性メモリ（例えば、読み取り専用メモリ（Read-Only Memory、ＲＯＭ）若しくはフラッシュメモリ）、又は、マイクロ電気機械システム（Microelectromechanical System、ＭＥＭＳ）系記憶媒体が挙げられ得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、コンピュータシステムに組み込まれる（例えば、システムＲＡＭ又はＲＯＭ）、コンピュータシステムに取り付け固定される（例えば、磁気ハードドライブ）、コンピュータシステムに取り外し可能に取り付けられる（例えば、光ディスク又はユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）ベースのフラッシュメモリ）、又は、有線若しくは無線ネットワークを介してコンピュータシステム（例えば、ネットワークアクセス可能ストレージ（network accessible storage、ＮＡＳ））に結合される。

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

本開示内では、場合によっては、異なるエンティティ（これらは、「コンポーネント」、「ユニット」、「デバイス」等と様々に称される）が１つ以上のタスク又は動作を実行するように「構成されている」と説明又は特許請求される。この明確な語句［１つ以上のタスクを実行する］ように構成されるエンティティは、本明細書では構造（すなわち、電子回路等の物理的なもの）を指すために使用される。より具体的には、この明確な語句は、この構造が動作中に１つ以上のタスクを実行するようになっていることを示すために使用される。構造は、構造が現在動作されていなくても、何らかのタスクを実行するように「～するように構成されている」と言うことができる。「データを記憶するように構成されたメモリデバイス」は、例えば、対象の集積回路が現在使用されていなくても（例えば、電源がそれに接続されない）、動作中にデータを記憶する回路を有する集積回路を包含するように意図される。したがって、いくつかのタスクを実行するように「～するように構成されている」と説明又は列挙されるエンティティは、デバイス、回路、タスクを実施するために実行可能なプログラム命令を記憶するメモリ等の物理的な何かを指す。この句は、無形の何かを指すために本明細書では使用されない。更に、「～するように構成されている」という用語は、「ように構成可能である」ことを意味することを意図しない。例えば、プログラムされていないフィールドプログラマブルゲートアレイは、何らかの特定の機能を果たすように「～するように構成されている」とは見なされないが、プログラミング後にその機能を果たす「～するように構成可能である」となり得る。加えて、構造が１つ以上のタスクを実行する「～するように構成されている」と添付の特許請求の範囲に記載することは、ミーンズプラスファンクション要素を有すると解釈されることを明確に意図していない。

Claims

メモリデバイスであって、
処理ユニットで実行するプログラムの代わりにデータを記憶するように構成された複数の記憶デバイスであって、前記処理ユニットは前記メモリデバイスの外部にある、複数の記憶デバイスと、
前記処理ユニットからの前記プログラムに対応するカーネル命令に応じてプロセッシングインメモリ（ＰＩＭ）コマンドを処理するように構成されたＰＩＭモジュールであって、前記ＰＩＭコマンドを含み、前記ＰＩＭモジュールによって実装される命令セットアーキテクチャ（ＩＳＡ）は、前記処理ユニットによって実装されるＩＳＡよりも少ない命令を有し、前記ＰＩＭモジュールの処理リソースは、前記ＰＩＭモジュールが複数のＰＩＭカーネルからのＰＩＭコマンドを同時に処理するように仮想化されるように構成されている、ＰＩＭモジュールと、を備える、
メモリデバイス。
前記ＰＩＭコマンドを記憶し、前記ＰＩＭコマンドを前記ＰＩＭモジュールに提供するように構成されたＰＩＭコマンド記憶（ＰＣＳ）モジュールであって、前記ＰＩＭモジュールの処理リソースは前記ＰＣＳモジュールを含む、ＰＣＳモジュールを更に備える、
請求項１のメモリデバイス。
少なくとも２つのＰＩＭカーネルに対応する少なくとも２つのカーネル命令の一部を組み合わせ、前記ＰＣＳモジュールにおいて前記少なくとも２つのカーネル命令に対応する単一のＰＩＭコマンドを記憶するように構成されたＰＩＭカーネルスケジューラを更に備える、
請求項２のメモリデバイス。
前記ＰＩＭカーネルスケジューラは、組み合わせメトリックに基づいて前記少なくとも２つのカーネル命令を組み合わせるように構成されている、
請求項３のメモリデバイス。
前記組み合わせメトリックは、前記ＰＩＭモジュールでの実行を待っているＰＩＭカーネル間のそれぞれのカーネル命令の共通性、対応するＰＩＭカーネルのリソース使用量に基づいて予想されるカーネル命令の重み付けされた組み合わせ、又は、前記処理ユニットから受信された前記ＰＩＭカーネルの依存性グラフのうち少なくとも１つに基づいている、
請求項４のメモリデバイス。
前記複数の記憶デバイスは、レジスタバンクとして構成されたレジスタファイルを更に備え、
前記ＰＩＭカーネルスケジューラは、前記カーネル命令によって示された仮想レジスタアドレスを前記レジスタファイルの物理レジスタアドレスに変換するように構成されている、
請求項３のメモリデバイス。
前記複数の記憶デバイスは、レジスタバンクとして構成されたレジスタファイルを更に備え、
前記ＰＩＭモジュールの処理リソースは、前記レジスタファイルを含み、前記レジスタファイルの少なくともいくつかのレジスタ、前記少なくとも２つのＰＩＭカーネルのうち第１のＰＩＭカーネルに割り当てられるように構成されており、前記レジスタファイルの少なくともいくつかのレジスタは、前記少なくとも２つのＰＩＭカーネルのうち第２のＰＩＭカーネルに割り当てられる、
請求項３のメモリデバイス。
前記ＰＩＭカーネルスケジューラは、前記処理ユニットからの前記カーネル命令に基づいて、前記ＰＩＭモジュールで実行するための前記ＰＩＭコマンドをスケジューリングするように構成されている、
請求項３のメモリデバイス。
方法であって、
プロセッシングインメモリ（ＰＩＭ）演算論理ユニット（ＡＬＵ）において、処理ユニットから、前記ＰＩＭＡＬＵによって同時に処理される複数のカーネルのためのカーネル命令を受信することであって、前記ＰＩＭＡＬＵによって実装される命令セットアーキテクチャ（ＩＳＡ）は、前記処理ユニットによって実装されるＩＳＡよりも少ない命令を有する、ことと、
ＰＩＭコマンド記憶（ＰＣＳ）モジュールから前記カーネル命令に対応するＰＩＭＡＬＵコマンドを取り出すことであって、少なくとも１つのＰＩＭ命令は、少なくとも２つのカーネルに対応する、ことと、
前記カーネルのうち少なくとも２つのためのデータを、前記ＰＩＭＡＬＵを含むメモリのレジスタバンクに記憶することを含む前記ＰＩＭＡＬＵコマンドを実行することと、を含む、
方法。
前記カーネル命令は、それぞれのＰＩＭＡＬＵコマンド及び少なくとも１つのそれぞれのバンクローカルアドレスを示すそれぞれのコマンドインデックスを含む、
請求項９の方法。
前記ＰＣＳモジュールから前記ＰＩＭＡＬＵコマンドを取り出す前に、前記カーネル命令によって示される前記ＰＩＭＡＬＵコマンドのうち少なくとも２つが同じ動作を要求することを検出したことに応じて、前記少なくとも２つのＰＩＭＡＬＵコマンドの指標を前記ＰＣＳモジュールの単一のエントリに記憶することを更に含む、
請求項９の方法。
前記ＰＩＭＡＬＵコマンドを取り出すことは、対応するＰＩＭカーネルの依存性に基づいて、前記ＰＩＭＡＬＵコマンドのうち少なくとも１つの実行を遅延させることを含む、
請求項９の方法。
システムであって、
複数のプログラムを実行するように構成された処理ユニットと、
前記処理ユニットからカーネル命令を受信するように構成されたメモリデバイスであって、前記カーネル命令は、前記メモリデバイスのプロセッシングインメモリ（ＰＩＭ）モジュールに、複数のＰＩＭカーネルのためのＰＩＭコマンドを同時に処理させ、ＰＩＭコマンドを同時に処理することは、仮想レジスタバンクとして動作するように構成された前記メモリデバイスの複数の記憶デバイスに前記ＰＩＭカーネルの少なくともいくつかのためのデータを記憶することを含み、前記ＰＩＭコマンドを含み、前記ＰＩＭモジュールによって実装される命令セットアーキテクチャ（ＩＳＡ）は、前記処理ユニットによって実装されるＩＳＡよりも少ない命令を有する、メモリデバイスと、を備える、
システム。
前記メモリデバイスは、前記ＰＩＭコマンドを記憶し、前記ＰＩＭコマンドを前記ＰＩＭモジュールに提供するように構成されたＰＩＭコマンド記憶（ＰＣＳ）モジュールを備え、
前記処理ユニットは、アプリケーションアドレスをＰＣＳアドレスに変換し、前記カーネル命令の一部として前記ＰＣＳアドレスを送信するＰＩＭカーネルスケジューラの一部を備える、
請求項１３のシステム。
前記メモリデバイスは、第２の複数のＰＩＭカーネルのための第２のＰＩＭコマンドを同時に処理するように構成された第２のＰＩＭモジュールを備える、
請求項１３のシステム。
前記処理ユニットは、前記カーネル命令を前記メモリデバイスに送信するように構成されたコプロセッサを備える、
請求項１３のシステム。