JP7420251B2 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP7420251B2
JP7420251B2 JP2022534108A JP2022534108A JP7420251B2 JP 7420251 B2 JP7420251 B2 JP 7420251B2 JP 2022534108 A JP2022534108 A JP 2022534108A JP 2022534108 A JP2022534108 A JP 2022534108A JP 7420251 B2 JP7420251 B2 JP 7420251B2
Authority
JP
Japan
Prior art keywords
page
data
calculation means
information processing
page table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022534108A
Other languages
English (en)
Other versions
JPWO2022004837A1 (ja
JPWO2022004837A5 (ja
Inventor
陽司 田山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2022004837A1 publication Critical patent/JPWO2022004837A1/ja
Publication of JPWO2022004837A5 publication Critical patent/JPWO2022004837A5/ja
Application granted granted Critical
Publication of JP7420251B2 publication Critical patent/JP7420251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/06Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

本発明は情報処理装置及び情報処理方法に関し、特に、複数の演算装置のメモリ間でデータ転送を行う機能を備える情報処理装置、情報処理方法及び情報処理プログラムの記録媒体に関する。
CPU(Central Processing Unit)とGPU(Graphic Processing Unit)とを組み合わせた情報処理装置は、高速な処理が要求されるコンピュータにおいて広く用いられている。CPUは汎用的な演算装置であり、GPUは画像処理などを目的とした並列演算に特化された演算装置である。画像処理に関する演算をGPUが担うことによって、情報処理装置は3次元画像などの複雑な演算を高速に実行できる。GPUは、その高速性を生かして、画像処理のみならず機械学習にも用いられつつある。
CPUとその配下のGPUとの間で機能が分担される情報処理装置では、CPUとGPUとがそれぞれ独立したローカルメモリを持つ構成が用いられる。このような構成においてメモリの管理や演算装置の間のデータ転送を効率よく行うためには複雑なプログラミングが必要となる。例えば、配列の中にポインタが含まれているデータをコピーする「ディープコピー」と呼ばれる操作をプログラムが実行する際には、元の配列に加えて配列内のポインタが指しているデータを同時にコピーする必要がある。このような操作を必要とするプログラミングを容易にするために、CPUとGPUとが同一のアドレス空間を使用するコンピュータプラットフォームが知られている。例えば、米国エヌビディア社が開発した、CUDA(登録商標)と呼ばれる並列演算のためのプラットフォームが知られている。CPUとGPUとが同一のアドレス空間を持つプラットフォームを用いることにより、CPUとGPUとを備える情報処理装置のプログラミングの容易化やプログラムの生産性の向上が期待される。
本発明に関連して、特許文献1には共有のメインメモリを有するマルチプロセッサシステムに関する技術が記載されている。
特表2005-500592号公報
しかしながら、CPUのローカルメモリとGPUのローカルメモリのように、物理的に異なるメモリに確保されたデータをCPU及びGPUの両方から参照するためには、データを一方のローカルメモリから他方のローカルメモリへ転送する必要がある。例えば、CUDAバージョン6以降では、Unified Memoryと呼ばれる、ホストとデバイスとの間のデータ転送機能が用意される。しかし、CPUとGPUと間のデータ転送は一般的には1ページずつ行われるため、データ転送が繰り返し行われる場合には処理速度が低下する場合もある。
(発明の目的)
本発明は、複数の演算装置が使用される情報処理装置において、これらの演算装置間のデータ転送の効率を向上させるための技術を提供することを目的とする。
本発明の情報処理装置は、
第1の演算手段と、
前記第1の演算手段と共通の仮想アドレス空間が割り当てられた第2の演算手段と、
前記第1の演算手段が備えるローカルメモリに記憶された第1のページテーブルと、
前記第2の演算手段が備えるローカルメモリに記憶された第2のページテーブルと、
前記第2の演算手段がアクセスした前記第2のページテーブルのページの第1のビットフラグが前記第2の演算手段がアクセスしたページのデータの無効を示す場合には、前記第2の演算手段がアクセスしたページと同一のページ番号のページを含む前記第1のページテーブルの複数のページのデータを一括して前記第2のページテーブルに転送する転送指示を生成するデータ管理手段と、を備える。
本発明の情報処理方法は、
共通の仮想アドレス空間が割り当てられた第1の演算手段と第2の演算手段とによって演算を行い、
前記第1の演算手段が備えるローカルメモリに第1のページテーブルを記憶し、
前記第2の演算手段が備えるローカルメモリに第2のページテーブルを記憶し、
前記第2の演算手段がアクセスした前記第2のページテーブルのページの第1のビットフラグが前記第2の演算手段がアクセスしたページのデータの無効を示す場合には、前記第2の演算手段がアクセスしたページと同一のページ番号のページを含む前記第1のページテーブルの複数のページのデータを一括して前記第2のページテーブルに転送する転送指示を生成する、
手順を含む。
本発明の情報処理プログラムは、情報処理装置のコンピュータに、
共通の仮想アドレス空間が割り当てられた第1の演算手段と第2の演算手段とによって演算を行う処理、
前記第1の演算手段が備えるローカルメモリに第1のページテーブルを記憶する処理、 前記第2の演算手段が備えるローカルメモリに第2のページテーブルを記憶する処理、 前記第2の演算手段がアクセスした前記第2のページテーブルのページの第1のビットフラグが前記第2の演算手段がアクセスしたページのデータの無効を示す場合には、前記第2の演算手段がアクセスしたページと同一のページ番号のページを含む前記第1のページテーブルの複数のページのデータを一括して前記第2のページテーブルに転送する転送指示を生成する処理、
を実行させる。
本発明の情報処理装置、情報処理方法及び情報処理プログラムは、複数の演算装置が使用される情報処理装置において、演算装置間のデータ転送の効率を向上させることを可能とする。
第1の実施形態の情報処理装置1の構成例を示すブロック図である。 Vビットフラグに応じたページ転送について説明する図である。 ホスト100とデバイス200との間での複数ページの一括転送を説明する図である。 Cビットフラグを用いたページテーブル11及び21の管理の例を示す図である。 情報処理装置1のデータ転送の例を示すフローチャートである。 第3の実施形態の情報処理装置500の構成例を示すブロック図である。
本発明の実施形態について図面を参照して以下に説明する。図中に示された矢印は信号の向きあるいは処理の順序を例示するものであり、これらの限定を意図しない。また、実施形態及び図面では既出の要素には同一の参照符号を付して、重複する説明は省略する。
(第1の実施形態)
図1は、本発明の第1の実施形態の情報処理装置1の構成例を示すブロック図である。
情報処理装置1は、ホスト100とデバイス200とを含むコンピュータである。情報処理装置1は、ホスト100が備えるCPU10とデバイス200が備えるGPU20とを用いた演算処理によって、高い演算能力を発揮する。情報処理装置1は、例えば、CUDAバージョン6から実装されたUnified Memoryアーキテクチャが用いられたコンピュータである。情報処理装置1は、さらに、CPU10及びGPU20の演算を制御する情報を入力する図示されない入力装置や、CPU10及びGPU20の演算結果を出力する図示されない出力装置を備えてもよい。入力装置は例えばキーボードであり出力装置は例えばディスプレイである。演算を制御する情報は、例えばプログラムである。
ホスト100は、CPU10及びメモリ等の周辺回路を含む。デバイス200も、GPU20及びメモリ等の周辺回路を含む。GPU20は、CPU10の配下で動作する高速な演算装置である。情報処理装置1は、ホスト100及びデバイス200との間で複数のページを一括して転送することにより、これらの間で頻繁なデータ転送が必要となる場合において、情報処理装置1の処理速度の低下を抑制する。
ホスト100は、CPU10、ローカルメモリ101及びデータ管理部13を備える。
CPU10は、ローカルメモリ101上のデータを用いて演算を行う演算手段を担う。ローカルメモリ101はCPU10が使用するデータを記憶するメモリを含む電気回路であり、ページテーブル11及び転送データ領域12を備える。CPU10はローカルメモリ101にアクセスできる。しかし、GPU20はローカルメモリ101にはアクセスできない。
ページテーブル11はホスト100で用いられるデータがページ単位で格納されたテーブルである。ページテーブル11はローカルメモリ101に格納される。ページテーブル11は、格納されるページ毎に、PN(Page Number)ビットフラグ、V(Valid)ビットフラグ及びC(Change)ビットフラグを持つ。PNビットフラグはページ番号を示し、CPU10からのポインタアクセス時に参照される。VビットフラグはCPU10からのページアクセスの有効(Vaild)又は無効(Invalid)を示す。Cビットフラグはそのページエントリのデータが更新されているか否かを示す。転送データ領域12は、ホスト100からデバイス200へデータを転送する際に、転送の対象となるデータ(以下、「転送データ」という。)を一時的に保管する領域である。また、転送データ領域12は、デバイス200からホスト100へ転送された転送データを一時的に保管する領域でもある。ホスト100とデバイス200との間は、データバスで接続される。データバスとしてPCI(Peripheral Component Interconnect) Express(PCIe)を用いることができる。ホスト100とデバイス200との間のデータの転送は1ページずつ行われる。1ページのデータ量は、例えば4キロバイトである。
データ管理部13は、ホスト100とデバイス200との間のデータ転送を管理する電気回路である。データ管理部13はデバイス200が備えるデータ管理部23と通信可能に接続されている。データ管理部13はデータ管理部23からのデータ転送要求に応じて、転送データをページテーブル11から転送データ領域12へコピーする。その際、データ管理部13は、ページテーブル21のVビットフラグ及びCビットフラグの値を必要に応じて操作する。これらのビットフラグの値の意味、及び、ビットフラグの値に応じた情報処理装置1の動作の例は、本実施形態及び後の実施形態で説明する。なお、データ管理部13及び23は、情報処理装置1の内部で一体化されていてもよい。
データ管理部13は、転送データをページテーブル11のページエントリから転送データ領域12へコピーした後、デバイス200の転送データ領域22へ当該転送ページを転送する。転送データの転送には、DMA(Direct Memory Access)転送が用いられてもよい。
また、データ管理部13は、CPU10がページテーブル11を参照した際には、参照されたページエントリのVビットフラグおよびCビットフラグの値に応じてデータ転送要求を生成し、生成されたデータ転送要求をデータ管理部23へ送信する。そして、データ管理部13は、その転送要求に応じてデバイス200からホスト100へ転送された転送データを、ページテーブル11の同一のページ番号のページエントリに書き込む。データ管理部13とデータ管理部23との間の命令や応答はデータ転送に用いられるデータバスによって送受信されてもよいし、他の経路によって送受信されてもよい。
デバイス200は、GPU20、ローカルメモリ201及びデータ管理部23を備える。GPU20は、ローカルメモリ201上のデータを用いて演算を行う演算手段を担う。
ローカルメモリ201はGPU20が使用するデータを記憶するメモリを含む電気回路であり、ページテーブル21及び転送データ領域22を備える。GPU20はローカルメモリ201にアクセスできる。しかし、CPU10はローカルメモリ201にはアクセスできない。
ページテーブル21はデバイス200で用いられるデータがページ単位で格納されたテーブルである。ページテーブル21はローカルメモリ201に格納される。ページテーブル21は、ページテーブル11と同様に、格納されるページ毎に、PNビットフラグ、Vビットフラグ及びCビットフラグを持つ。PNビットフラグはページ番号を示し、GPU20からのポインタアクセス時に参照される。VビットフラグはGPU20からのページアクセスの有効又は無効を示す。Cビットフラグはそのページエントリのデータが更新されているか否かを示す。転送データ領域22は、デバイス200からホスト100へデータを転送する際に、転送データを一時的に保管する領域である。また、転送データ領域22は、ホスト100からデバイス200へ転送された転送データを一時的に保管する領域でもある。
データ管理部23は、デバイス200とホスト100との間のデータ転送を管理する電気回路である。データ管理部23はデータ管理部13からのデータ転送要求に応じて、転送データをページテーブル21から転送データ領域22へコピーする。その際、データ管理部23は、ページテーブル21のVビットフラグ及びCビットフラグの値を必要に応じて操作する。
データ管理部23は、転送データをページテーブル21のページエントリから転送データ領域22へコピーした後、ホスト100の転送データ領域12へ当該転送ページを転送する。転送データの転送には、DMA転送が用いられてもよい。
また、データ管理部23は、GPU20がページテーブル21を参照した際には、参照されたページエントリのVビットフラグおよびCビットフラグの値に応じてデータ転送要求を生成し、生成されたデータ転送要求をデータ管理部13へ送信する。そして、データ管理部23は、その転送要求に応じてホスト100からデバイス200へ転送された転送データを、ページテーブル21の同一のページ番号のページエントリに書き込む。
(動作例の説明)
ページテーブル11及び21に付されたVビットフラグに応じた転送データの転送例を説明する。図2は、情報処理装置1におけるVビットフラグに応じたページ転送について説明する図である。情報処理装置1では、CPU10とGPU20には共通の仮想アドレス空間が割り当てられる。そして、ホスト100ではページテーブル11、デバイス200ではページテーブル21が用いられる。ページテーブル11及び21は、それぞれ、ローカルメモリ101及び201に格納される。
ページテーブル11及び21の各ページエントリは、「PN」(ページ番号)、「V」(Vビットフラグ)、「C」(Cビットフラグ)及びPNに対応するアドレス空間のデータで構成される。ページテーブル11及び21において、ページエントリの処理はページテーブルのVビットフラグに応じて切り替えられる。ここで、Vビットフラグは、ページテーブル11及びページテーブル21のそれぞれにおいて、Vビットフラグが付されたページのデータが最新のものであるか(すなわち、そのデータを処理に用いてよいか)どうかを示す。そして、同一のアドレスのページエントリにおいて、Vビットフラグの値は、ページテーブル11及びページテーブル21の一方では「1」(Valid、有効)であり、他方では「0」(Invalid、無効)となるように、排他的に設定される。「有効」は、そのページのデータが最新であるため実行中のプログラムがそのページのデータを参照可能であることを示す。「無効」は、そのページのデータが最新ではないため、実行中のプログラムからの参照が禁止されていることを示す。
例えば、ページテーブル11のあるページXのVビットフラグが「1」(有効)であれば、CPU10はページXのデータを読み込んで処理できる。このとき、ページテーブル21のページXのVビットフラグは「0」(無効)であり、GPU20はページテーブル21のページXのデータを使用できない。逆に、ページテーブル21のあるページYのVビットフラグが「1」(有効)であれば、GPU20はページYのデータを読み込んで処理できる。このとき、ページテーブル11のページYのVビットフラグは「0」(無効)であり、CPU10はページテーブル11のページYのデータを使用できない。これは、ローカルメモリ101及び201上の最新のデータは常にどちらか一方のみであるからである。以下では、記載を簡潔にするためにページ番号(Page Number、PN)が1であることを「PN=1」と記載し、他の値の場合や他のビットフラグについてもこれに準じて記載する。
図2を参照して、デバイス200において、GPU20が、V=0(無効)であるページテーブル21のページにアクセスした場合について説明する。GPU20がページテーブル21のPN=1のページエントリにアクセスすると(図2の[1])、割り込みが発生し当該アクセス処理は中断される(図2の[2])。割り込みの発生は、データ管理部23からデータ管理部13へ通知される。データ管理部23は、GPU20がアクセスしたPN=1のデータをローカルメモリ101からローカルメモリ201へ転送する指示を生成し、生成された指示をデータ管理部13へ送信する。
データ管理部13は、データ管理部23からの指示に応じて、ページテーブル11のPN=1のページエントリのVビットフラグをV=1(有効)からV=0(無効)に変更する(図2の[3])。そして、データ管理部13は、ページテーブル11のPN=1のアドレスをDMA転送の転送元とした転送データの転送を設定する(図2の[4])。転送データは、転送データ領域12を介してデバイス200の転送データ領域22へDMA転送される(図2の[5])。
最後に、データ管理部23は、ホスト100から転送された転送データをページテーブル21のPN=1のページエントリに格納し(図2の[6])、ページテーブル21のPN=1のVビットフラグをV=0からV=1に変更する(図2の[7])。これにより、ページテーブル21のPN=1のページのデータおよびVビットフラグが更新され、GPU20は当初はアクセスできなかったPN=1のデータを使用できるようになる。その結果、GPU20は、割り込みから復帰してPN=1のデータを読み込んで処理を続行できる。
このように、GPU20がV=0であるページエントリにアクセスした場合には、ページテーブル11の同一のページ番号のページのデータがホスト100からデバイス200へ転送される。ページテーブル21は、最新のデータであるページテーブル11のデータによって更新されるため、GPU20がアクセスしたページテーブル21のページエントリはV=1に変更される。これにより、GPU20のページテーブル21のデータが最新でない場合も、最新のデータがCPU10のページテーブル11から転送され、GPU20はそのデータを使用できる。
同様に、CPU10がV=0であるページエントリにアクセスした場合にも、これに準じた手順によりページテーブル21の同一ページのデータがデバイス200からホスト100へ転送される。そして、CPU10がアクセスしたページテーブル11のページが更新されるため、CPU10は転送されたデータを使用できる。
以上のように、ホスト100とデバイス200との間でVビットフラグを用いてページエントリの転送を行うことで、CPU10及びGPU20のプログラムにおけるメモリアクセスの管理が容易になる。その結果、例えばホスト100とデバイス200との間でディープコピーを行うプログラムにおいてデータが最新であるかどうかをプログラム内で考慮する必要がなくなるため、情報処理装置1のプログラミングが容易となる。
図2で説明した手順では、ホスト100とデバイス200との間で、データは1ページ毎に自動的に転送される。このため、ホスト100とデバイス200との間でページのデータの転送が頻発する場合には、プログラミング時に転送処理が手作業で最適化されたプログラムと比較して、データの転送効率が低くなる場合がある。そこで、次に、ホスト100とデバイス200との間で複数のページのデータが一括して転送される形態を説明する。複数のページのデータを一括して転送することで、データの転送の頻度の増加が抑制され、情報処理装置1の処理速度の向上が期待される。
図3はホスト100とデバイス200との間での複数ページの一括転送を説明する図である。Vビットフラグの値に応じてページのデータを転送する処理は図2の手順と同様である。すなわち、ホスト100のページテーブル11及びデバイス200のページテーブル21の一方においてV=0(無効)であるページ番号のページエントリへのアクセスが発生した場合には、他方のページから当該一方のページへデータが転送される。
図3において、GPU20がページテーブル21のPN=1のページエントリ(PN=1)にアクセスすると(図3の[1])、V=0(無効)であるため割り込みが発生する(図3の[2])。割り込みの発生に伴い、データ管理部23からデータ管理部13へデータ転送の指示が送信される。割り込みの発生に応じて、データ管理部13はPN=1のページを含む複数のページエントリのVビットフラグをV=1からV=0に変更する(図3の[3])。図3は、PN=1からPN=3の3ページのページエントリにおいて、それぞれのVビットフラグがV=1からV=0に変更される例を示す。その後、データ管理部13は、PN=1からPN=3のページエントリを転送データ領域12から転送データ領域22へDMA転送する(図3の[4]-[5])。そして、データ管理部23は、転送データをページテーブル21のPN=1からPN=3のページエントリに格納し(図3の[6])、ページテーブル21のPN=1からPN=3のVビットフラグをV=0からV=1に変更する(図3の[7])。
複数のページのデータが同時に転送されることにより、デバイス200は、GPU20の現在の処理に必要なデータの他に、今後の処理で使用される可能性があるページのデータを予めローカルメモリ201に記憶させることができる。その結果、図3で説明した手順は、GPU20がページエントリへアクセスした際にページエントリが無効(V=0)である可能性を低減し、ひいてはデータ転送の頻繁な発生による情報処理装置1の性能低下を抑制できる。すなわち、本実施形態の情報処理装置1は、複数の演算装置が使用される情報処理装置において、演算装置間のデータ転送の効率を向上させることができる。
図3では、本来必要とされるPN=1のページに加えてPN=2のページ及びPN=3のページが一括して転送される例を説明した。ホスト100からPN=1のページとともに転送されるページの選択については、いくつかの方法が考えられる。GPU20がアクセスしようとしたページ(図3ではPN=1)と関連性のあるページが、PN=1のページとともに転送されてもよい。より具体的には、GPU20のメモリアクセスの空間的局所性に基づいてPN=1のページの近辺の複数のページから、一括して転送されるページが選択されてもよい。図3は、メモリアクセスの空間的局所性に基づいてPN=1~PN=3のページが転送される例である。あるいは、データ管理部23はGPU20のメモリアクセスの統計情報を記録する機能を備えてもよい。この場合、データ管理部23はこの統計情報に基づいてPN=1のデータの参照後に参照される可能性が高いページを選択し、選択されたページのデータが一括して転送されるようにDMA転送を設定してもよい。
なお、一括して転送されるページの総数は3ページに限られない。また、ページテーブル11においてV=0であるページエントリは、ページテーブル21ではV=1でありGPU20が利用可能であるためホスト100からデバイス200への転送の対象としなくてもよい。
(第2の実施形態)
第1の実施形態の図3では、複数ページ(PN=1からPN=3)を一括してホスト100からデバイス200へ転送する例を説明した。図3の例では、ホスト100のページテーブル11において、PN=2のページエントリのVビットフラグは、ページのデータがデバイス200へ転送されることに伴いV=0(無効)に変更される。従って、PN=2のページを含む転送データをデバイス200へ転送した後にCPU10がPN=2のページへアクセスすると、ホスト100において割り込みが発生する。そうすると、ホスト100は、デバイス200からPN=2のページを取得する必要がある。
この場合、ホスト100から転送されたPN=2のページのデータが転送後にデバイス200において更新されていれば、更新されたPN=2のページをデバイス200からホスト100へ転送する必要がある。しかし、デバイス200において、PN=2のページが転送後に更新されていない場合には、PN=2のページのデータはホスト100にあるPN=2のページのデータと同一である。従って、この場合はPN=2のページをデバイス200からホスト100へ転送する必要はない。
そこで、第2の実施形態では、それぞれのページエントリに設けられたCビットフラグを利用する。Cビットフラグは、対応するページエントリがCPU10またはGPU20により更新されたか否かを表す。本実施形態では、Cビットフラグが「0」(C=0)の場合はページエントリが更新されていないことを示し、Cビットフラグが「1」(C=1)の場合はページエントリが更新されたことを示す。
図4はCビットフラグを用いたページテーブル11及び21の管理の例を示す図である。図4ではCビットフラグ及びVビットフラグに応じてページのデータが転送される。Vビットフラグを用いた、データの基本的な転送処理は図3の手順と同様である。すなわち、デバイス200のページテーブル21においてV=0(無効)であるページエントリへGPU20がアクセスした場合には、ホスト100からデバイス200へ当該ページのデータが転送される。この場合、複数のページが一括して転送される。
図4では、図3の手順の実行によって、PN=1~PN=3のデータがホスト100からコピーされた後の動作例を説明する。図3の手順の実行により、デバイス200においてPN=1~PN=3のVビットフラグはすべてV=1(有効)となっている。一方、ホスト100においては、PN=1~PN=3のVビットフラグはすべてV=0(無効)である。ここで、CPU10がページテーブル11のPN=2のエントリにアクセスすると(図4の[1])、V=0であるため割り込みが発生する。割り込みの発生はデータ管理部13からデータ管理部23へデータ転送要求として通知される(図4の[2])。
割り込みの発生に応じて、データ管理部23はページテーブル21のPN=2のCビットフラグの値を確認する(図4の[3])。PN=2のページエントリにおいてC=0(ページが未更新)であった場合には、デバイス200において、PN=2のページのデータはGPU20によって更新されていない。この場合、デバイス200からホスト100への当該ページの転送は不要であるため、データ管理部23は、PN=2のページのデータの、ホスト100へのDMA転送を設定しない。また、CPU10の割り込みもキャンセルされる(図4の[4])。
ここで、ページテーブル11及び21の、Vビットフラグ及びCビットフラグは適宜更新される(図4の[5])。すなわち、CPU10がアクセスしたPN=2のページエントリに関して、ページテーブル11のPN=2のページエントリはV=0(無効)からV=1(有効)に変更され、ページテーブル21のPN=2のページエントリはV=1からV=0に変更される。これにより、割り込みから復帰したCPU10は、Vビットフラグの更新後に、ページテーブル11のPN=2のページエントリにアクセスできるようになる。また、ページテーブル21のPN=2のページエントリではC=0が維持されるとともに、ページテーブル11のPN=2のページエントリではC=1に設定される。
なお、図4の[3]においてページテーブル21のPN=2においてC=1(ページが更新済)であった場合には、図2又は図3で説明したページテーブル11からページテーブル21へのページの転送に準じた手順が適用できる。すなわち、データ管理部23は、ページテーブル21のPN=2のページのデータをホスト100へDMA転送し、データ管理部13は転送データを用いてページテーブル11のPN=2のページのデータを更新してV=1とする。これにより、CPU10は、GPU20によって更新されたPN=2のページのデータを入手して利用できる。
図5は、図3及び図4で説明した、情報処理装置1のデータ転送の例を示すフローチャートである。GPU20がPN=1のページエントリへアクセスする(図5のステップS01)。PN=1においてV=0(無効)の場合は(ステップS02:YES)、ページテーブル11の(すなわちホスト100側の)PN=1を含む複数ページ(PN=1~3)がV=0に設定される(ステップS03)。そして、ホスト100からデバイス200にPN=1~3のページのデータが転送される(ステップS04)。ページテーブル21の(すなわちデバイス200側の)PN=1~3のページエントリは転送データによって更新され、これらのページのVビットフラグはV=1に設定される(ステップS05)。
その後、GPU20はページテーブル21にアクセスし、PN=1のデータにアクセスして処理を続行する(ステップS06)。ここまでの手順は第1の実施形態において図3で説明した手順である。ステップS02においてデバイス200側のPN=1のページがV=1である場合は(ステップS02:NO)、ページのデータの転送は行われず、GPU20は現在のページのデータを使用して処理を継続する。
ステップS06の後は、ホスト100においてCPU10がPN=2のページエントリにアクセスが発生する場合(ステップS07)について記載する。ホスト側のPN=2のページにおいてV=1であると(ステップS08:NO)、CPU10はPN=2のページのデータを用いて処理を実行する(ステップS13)。一方、V=0であると(ステップS08:YES)割り込みが発生し、デバイス200のデータ管理部23はホスト100のデータ管理部13からPN=2のページの転送要求を受ける。ここで、データ管理部23はページテーブル21を参照し、転送要求を受けたページ(PN=2)のCビットフラグを確認する(ステップS09)。
ステップS09においてC=0(ページが未更新)であった場合には(ステップS09:NO)、PN=2のページはGPU20によって更新されていない。この場合、デバイス200からホスト100へのPN=2のページの転送は不要であり、転送要求がキャンセルされることでCPU10は処理を続行できる(ステップS11~S13)。この場合、データ管理部23はページテーブル21のPN=2のページをV=0に設定し、C=0は維持する(ステップS11)。また、データ管理部13はページテーブル11のPN=2のページをV=1、C=1に設定する(ステップS12)。従って、割り込みから復帰したCPU10は、PN=2のページにおいてV=1であるためPN=2のページのデータにアクセスし、処理を実行できるようになる(ステップS13)。
一方、デバイス200のPN=2のページエントリにおいてC=1(ページが更新済)であった場合は(ステップS09:YES)、GPU20によりPN=2のページが更新されている。この場合には、データ管理部23は、PN=2のページをデバイス200からホスト100へ転送し(ステップS10)、ページテーブル21のPN=2のページエントリをV=0、C=0に設定する(ステップS11)。ホスト100では、データ管理部13がページテーブル11のPN=2のページをV=1、C=1に設定する(ステップS12)。これにより、CPU10は、GPU20によって更新されたPN=2のページエントリを使用して処理を継続する(ステップS13)。
このように、CPU10又はGPU20により対象ページが更新されているか否かを示すCビットを新たに設けることで、複数ページが転送される場合において、転送後に更新されていないページの不必要な再転送の発生を抑制できる。その結果、本実施形態の情報処理装置1は、複数の演算装置が使用される情報処理装置において、これらの演算装置間のデータ転送の効率をさらに向上させることができる。
(第3の実施形態)
図6は、本発明の第3の実施形態の情報処理装置500の構成例を示すブロック図である。情報処理装置500は、第1の演算部501、第2の演算部502、ローカルメモリ503及び504、並びにデータ管理部505を備える。第1の演算部501及び第2の演算部502は、プログラムによって動作する演算装置であり、例えば一方はCPUであり他方はGPUである。第2の演算部502には、第1の演算部501と共通の仮想アドレス空間が割り当てられる。ローカルメモリ503は第1の演算部501が使用するメモリであり、ローカルメモリ504は第2の演算部が使用するメモリである。ローカルメモリ503は、第1の演算部501が使用するページエントリを、第1のページテーブルとして記憶する。ローカルメモリ504は、第2の演算部502が使用するページエントリを、第2のページテーブルとして記憶する。
データ管理部505は、第2の演算部502がアクセスした第2のページテーブルのページにおいて、第1のビットフラグが、第2の演算部502がアクセスしたページのデータが無効であることを示す場合には、転送指示を生成する。転送指示は、第2の演算部502がアクセスしたページと同一のページ番号のページを含む第1のページテーブルの複数のページのデータを一括して第2のページテーブルに転送する指示である。すなわち、第2の演算部502がアクセスしたページエントリのデータが無効である場合には、当該ページと同一のページ番号のページのデータを含む複数のページのデータが一括して第1の演算部501から第2の演算部502に転送される。
このような構成により、情報処理装置500は、第2の演算部502がアクセスしたページエントリのデータが第1の演算部501で使用されている場合に、第1の演算部501と第2の演算部502との間のデータ転送の効率を向上させることができる。その理由は、データ管理部505が、複数のページを一括して第1の演算部501から第2の演算部502に転送する指令を生成するからである。これにより、1ページずつデータ転送を行う場合と比較して、データ転送が必要となる状況の発生回数を抑制できる。すなわち、情報処理装置500は、複数の演算装置が使用される情報処理装置において、演算装置間のデータ転送の効率を向上させることができる。
以上、実施形態を参照して本発明を説明したが、本発明は上記の実施形態に限定されない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
また、それぞれの実施形態に記載された構成は、必ずしも互いに排他的なものではない。本発明の作用及び効果は、上述の実施形態の全部又は一部を組み合わせた構成によって実現されてもよい。
以上の各実施形態に記載された機能及び手順は、CPU10、GPU20又は他の演算装置がプログラムを実行することにより実現されてもよい。プログラムは、有形であり、かつ、一時的でない(tangible and non-transitory)記録媒体に記録される。記録媒体としては半導体メモリ又は固定磁気ディスク装置が用いられるが、これらには限定されない。
この出願は、2020年7月3日に出願された日本出願特願2020-115307を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 情報処理装置
10 CPU
20 GPU
11、21 ページテーブル
12、22 転送データ領域
13、23、505 データ管理部
100 ホスト
101、201、503、504 ローカルメモリ
200 デバイス
500 情報処理装置
501 第1の演算部
502 第2の演算部
505 データ管理部

Claims (10)

  1. 第1の演算手段と、
    前記第1の演算手段と共通の仮想アドレス空間が割り当てられた第2の演算手段と、
    前記第1の演算手段が備えるローカルメモリに記憶された第1のページテーブルと、
    前記第2の演算手段が備えるローカルメモリに記憶された第2のページテーブルと、
    前記第2の演算手段がアクセスした前記第2のページテーブルのページの第1のビットフラグが前記第2の演算手段がアクセスしたページのデータの無効を示す場合には、前記第2の演算手段がアクセスしたページと同一のページ番号のページを含む前記第1のページテーブルの複数のページのデータを一括して前記第2のページテーブルに転送する転送指示を生成するデータ管理手段と、
    を備える情報処理装置。
  2. 前記データ管理手段は、一括して転送される前記複数のページを、前記第2の演算手段のメモリアクセスの空間的局所性に基づいて選択する、請求項1に記載された情報処理装置。
  3. 前記データ管理手段は、
    前記第2の演算手段がアクセスした前記第2のページテーブルのページの第1のビットフラグが前記第2の演算手段がアクセスした前記ページのデータの無効を示し、
    かつ、
    前記第2の演算手段がアクセスした前記ページと同一のページ番号の前記第1のページテーブルのページのデータが前記第1の演算手段によって変更されてないことを前記第1のページテーブルの第2のビットフラグが示す場合は、前記転送指示を取り消し、前記第2の演算手段がアクセスした前記ページの第1のビットフラグを前記第2の演算手段がアクセスした前記ページのデータの有効を示すように設定する、請求項1又は2に記載された情報処理装置。
  4. 前記第1の演算手段及び前記第2の演算手段は、それぞれ、アクセスした前記ページの前記第1のビットフラグがデータの有効を示す場合には前記データを用いた処理を行い、前記第1のビットフラグが前記データの無効を示す場合には前記データを用いた処理を行わない、
    請求項1乃至3のいずれかに記載された情報処理装置。
  5. 前記データ管理手段は、同一のページ番号の前記第1のページテーブルのページ及び前記第2のページテーブルのページのそれぞれの前記第1のビットフラグの有効及び無効を排他的に設定する、請求項4に記載された情報処理装置。
  6. 前記第1の演算手段及び前記第2の演算手段の一方は中央処理装置(CPU)であり、他方は画像処理装置(GPU)である、請求項1乃至5のいずれかに記載された情報処理装置。
  7. 前記第1の演算手段と前記第2の演算手段との間で転送される転送データを格納するデータ格納手段を備える、請求項1乃至6のいずれかに記載された情報処理装置。
  8. 前記データ管理手段は、前記第1の演算手段の前記ローカルメモリを制御する第1の管理手段と前記第2の演算手段の前記ローカルメモリを制御する第2の管理手段とを含み、前記データ格納手段は、前記第1の管理手段が制御する第1の格納手段と前記第2の管理手段が制御する第2の格納手段とを含み、
    前記第1の演算手段と、前記第1の管理手段と、前記第1の格納手段とを備える第1のデバイスと、
    前記第2の演算手段と、前記第2の管理手段と、前記第2の格納手段とを備える第2のデバイスと、
    を備える、請求項7に記載された情報処理装置。
  9. 共通の仮想アドレス空間が割り当てられた第1の演算手段と第2の演算手段とによって演算を行い、
    前記第1の演算手段が備えるローカルメモリに第1のページテーブルを記憶し、
    前記第2の演算手段が備えるローカルメモリに第2のページテーブルを記憶し、
    前記第2の演算手段がアクセスした前記第2のページテーブルのページの第1のビットフラグが前記第2の演算手段がアクセスしたページのデータの無効を示す場合には、前記第2の演算手段がアクセスしたページと同一のページ番号のページを含む前記第1のページテーブルの複数のページのデータを一括して前記第2のページテーブルに転送する転送指示を生成する、
    情報処理方法。
  10. 情報処理装置のコンピュータに、
    共通の仮想アドレス空間が割り当てられた第1の演算手段と第2の演算手段とによって演算を行う処理、
    前記第1の演算手段が備えるローカルメモリに第1のページテーブルを記憶する処理、
    前記第2の演算手段が備えるローカルメモリに第2のページテーブルを記憶する処理、
    前記第2の演算手段がアクセスした前記第2のページテーブルのページの第1のビットフラグが前記第2の演算手段がアクセスしたページのデータの無効を示す場合には、前記第2の演算手段がアクセスしたページと同一のページ番号のページを含む前記第1のページテーブルの複数のページのデータを一括して前記第2のページテーブルに転送する転送指示を生成する処理、
    を実行させるための情報処理プログラム
JP2022534108A 2020-07-03 2021-07-01 情報処理装置、情報処理方法及び情報処理プログラム Active JP7420251B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020115307 2020-07-03
JP2020115307 2020-07-03
PCT/JP2021/024911 WO2022004837A1 (ja) 2020-07-03 2021-07-01 情報処理装置、情報処理方法及び情報処理プログラムの記録媒体

Publications (3)

Publication Number Publication Date
JPWO2022004837A1 JPWO2022004837A1 (ja) 2022-01-06
JPWO2022004837A5 JPWO2022004837A5 (ja) 2023-03-10
JP7420251B2 true JP7420251B2 (ja) 2024-01-23

Family

ID=79316293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022534108A Active JP7420251B2 (ja) 2020-07-03 2021-07-01 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (2)

Country Link
JP (1) JP7420251B2 (ja)
WO (1) WO2022004837A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211506A (ja) 2009-03-10 2010-09-24 Nec Corp 不均一メモリアクセス機構を備えるコンピュータ、コントローラ、及びデータ移動方法
JP6437654B2 (ja) 2015-07-29 2018-12-12 マクセル株式会社 映像表示システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6437654A (en) * 1987-08-03 1989-02-08 Nec Corp Inter-processor communication memory

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211506A (ja) 2009-03-10 2010-09-24 Nec Corp 不均一メモリアクセス機構を備えるコンピュータ、コントローラ、及びデータ移動方法
JP6437654B2 (ja) 2015-07-29 2018-12-12 マクセル株式会社 映像表示システム

Also Published As

Publication number Publication date
JPWO2022004837A1 (ja) 2022-01-06
WO2022004837A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
US9547597B2 (en) Selection of post-request action based on combined response and input from the request source
US7120755B2 (en) Transfer of cache lines on-chip between processing cores in a multi-core system
US7769957B2 (en) Preventing writeback race in multiple core processors
US9208092B2 (en) Coherent attached processor proxy having hybrid directory
US20080320233A1 (en) Reduced Handling of Writeback Data
JP2007122741A (ja) 非対称型異種マルチプロセッサ環境でアトミック更新プリミティブを提供するための方法
US8949569B2 (en) Enhanced direct memory access
US6898676B2 (en) Computer system supporting both dirty-shared and non-dirty-shared data processing entities
EP1703405B1 (en) Information processing device and data control method in information processing device
US7051163B2 (en) Directory structure permitting efficient write-backs in a shared memory computer system
JPH1031625A (ja) マルチ・プロセッサ・システムにおける改良されたコピーバック性能のためのライトバック・バッファ
US9251076B2 (en) Epoch-based recovery for coherent attached processor proxy
US8266386B2 (en) Structure for maintaining memory data integrity in a processor integrated circuit using cache coherency protocols
JP4266629B2 (ja) ページ・テーブル属性によるバス・インタフェース選択
JP2005056401A (ja) キャッシュ可能なdma
CN116745752A (zh) 迁移由输入-输出设备能够访问的存储器页面
KR19990085485A (ko) 분산 공유 메모리 시스템에서 미세 통신과 대단위 통신의 병합을 위한 적응형 입도 방법
JP7420251B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2001134486A (ja) マイクロプロセッサおよび記憶装置
JPH01213732A (ja) データ処理システム
US8244919B2 (en) Data transfer apparatus, system and method using the same
US20040068613A1 (en) Retry-based late race resolution mechanism for a computer system
US20220050779A1 (en) Memory disposition device, memory disposition method, and recording medium storing memory disposition program
US20230136091A1 (en) High-performance storage infrastructure offload
JP2007257192A (ja) データ処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R151 Written notification of patent or utility model registration

Ref document number: 7420251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151