JP7420251B2

JP7420251B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7420251B2
Application number: JP2022534108A
Authority: JP
Inventors: 陽司田山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-07-03
Filing date: 2021-07-01
Publication date: 2024-01-23
Anticipated expiration: 2041-07-01
Also published as: JPWO2022004837A1; WO2022004837A1

Description

本発明は情報処理装置及び情報処理方法に関し、特に、複数の演算装置のメモリ間でデータ転送を行う機能を備える情報処理装置、情報処理方法及び情報処理プログラムの記録媒体に関する。

ＣＰＵ（Central Processing Unit）とＧＰＵ（Graphic Processing Unit）とを組み合わせた情報処理装置は、高速な処理が要求されるコンピュータにおいて広く用いられている。ＣＰＵは汎用的な演算装置であり、ＧＰＵは画像処理などを目的とした並列演算に特化された演算装置である。画像処理に関する演算をＧＰＵが担うことによって、情報処理装置は３次元画像などの複雑な演算を高速に実行できる。ＧＰＵは、その高速性を生かして、画像処理のみならず機械学習にも用いられつつある。

ＣＰＵとその配下のＧＰＵとの間で機能が分担される情報処理装置では、ＣＰＵとＧＰＵとがそれぞれ独立したローカルメモリを持つ構成が用いられる。このような構成においてメモリの管理や演算装置の間のデータ転送を効率よく行うためには複雑なプログラミングが必要となる。例えば、配列の中にポインタが含まれているデータをコピーする「ディープコピー」と呼ばれる操作をプログラムが実行する際には、元の配列に加えて配列内のポインタが指しているデータを同時にコピーする必要がある。このような操作を必要とするプログラミングを容易にするために、ＣＰＵとＧＰＵとが同一のアドレス空間を使用するコンピュータプラットフォームが知られている。例えば、米国エヌビディア社が開発した、ＣＵＤＡ（登録商標）と呼ばれる並列演算のためのプラットフォームが知られている。ＣＰＵとＧＰＵとが同一のアドレス空間を持つプラットフォームを用いることにより、ＣＰＵとＧＰＵとを備える情報処理装置のプログラミングの容易化やプログラムの生産性の向上が期待される。

本発明に関連して、特許文献１には共有のメインメモリを有するマルチプロセッサシステムに関する技術が記載されている。

特表２００５－５００５９２号公報

しかしながら、ＣＰＵのローカルメモリとＧＰＵのローカルメモリのように、物理的に異なるメモリに確保されたデータをＣＰＵ及びＧＰＵの両方から参照するためには、データを一方のローカルメモリから他方のローカルメモリへ転送する必要がある。例えば、ＣＵＤＡバージョン６以降では、ＵｎｉｆｉｅｄＭｅｍｏｒｙと呼ばれる、ホストとデバイスとの間のデータ転送機能が用意される。しかし、ＣＰＵとＧＰＵと間のデータ転送は一般的には１ページずつ行われるため、データ転送が繰り返し行われる場合には処理速度が低下する場合もある。
（発明の目的）
本発明は、複数の演算装置が使用される情報処理装置において、これらの演算装置間のデータ転送の効率を向上させるための技術を提供することを目的とする。

本発明の情報処理装置は、
第１の演算手段と、
前記第１の演算手段と共通の仮想アドレス空間が割り当てられた第２の演算手段と、
前記第１の演算手段が備えるローカルメモリに記憶された第１のページテーブルと、
前記第２の演算手段が備えるローカルメモリに記憶された第２のページテーブルと、
前記第２の演算手段がアクセスした前記第２のページテーブルのページの第１のビットフラグが前記第２の演算手段がアクセスしたページのデータの無効を示す場合には、前記第２の演算手段がアクセスしたページと同一のページ番号のページを含む前記第１のページテーブルの複数のページのデータを一括して前記第２のページテーブルに転送する転送指示を生成するデータ管理手段と、を備える。

本発明の情報処理方法は、
共通の仮想アドレス空間が割り当てられた第１の演算手段と第２の演算手段とによって演算を行い、
前記第１の演算手段が備えるローカルメモリに第１のページテーブルを記憶し、
前記第２の演算手段が備えるローカルメモリに第２のページテーブルを記憶し、
前記第２の演算手段がアクセスした前記第２のページテーブルのページの第１のビットフラグが前記第２の演算手段がアクセスしたページのデータの無効を示す場合には、前記第２の演算手段がアクセスしたページと同一のページ番号のページを含む前記第１のページテーブルの複数のページのデータを一括して前記第２のページテーブルに転送する転送指示を生成する、
手順を含む。

本発明の情報処理プログラムは、情報処理装置のコンピュータに、
共通の仮想アドレス空間が割り当てられた第１の演算手段と第２の演算手段とによって演算を行う処理、
前記第１の演算手段が備えるローカルメモリに第１のページテーブルを記憶する処理、前記第２の演算手段が備えるローカルメモリに第２のページテーブルを記憶する処理、前記第２の演算手段がアクセスした前記第２のページテーブルのページの第１のビットフラグが前記第２の演算手段がアクセスしたページのデータの無効を示す場合には、前記第２の演算手段がアクセスしたページと同一のページ番号のページを含む前記第１のページテーブルの複数のページのデータを一括して前記第２のページテーブルに転送する転送指示を生成する処理、
を実行させる。

本発明の情報処理装置、情報処理方法及び情報処理プログラムは、複数の演算装置が使用される情報処理装置において、演算装置間のデータ転送の効率を向上させることを可能とする。

第１の実施形態の情報処理装置１の構成例を示すブロック図である。Ｖビットフラグに応じたページ転送について説明する図である。ホスト１００とデバイス２００との間での複数ページの一括転送を説明する図である。Ｃビットフラグを用いたページテーブル１１及び２１の管理の例を示す図である。情報処理装置１のデータ転送の例を示すフローチャートである。第３の実施形態の情報処理装置５００の構成例を示すブロック図である。

本発明の実施形態について図面を参照して以下に説明する。図中に示された矢印は信号の向きあるいは処理の順序を例示するものであり、これらの限定を意図しない。また、実施形態及び図面では既出の要素には同一の参照符号を付して、重複する説明は省略する。

（第１の実施形態）
図１は、本発明の第１の実施形態の情報処理装置１の構成例を示すブロック図である。
情報処理装置１は、ホスト１００とデバイス２００とを含むコンピュータである。情報処理装置１は、ホスト１００が備えるＣＰＵ１０とデバイス２００が備えるＧＰＵ２０とを用いた演算処理によって、高い演算能力を発揮する。情報処理装置１は、例えば、ＣＵＤＡバージョン６から実装されたＵｎｉｆｉｅｄＭｅｍｏｒｙアーキテクチャが用いられたコンピュータである。情報処理装置１は、さらに、ＣＰＵ１０及びＧＰＵ２０の演算を制御する情報を入力する図示されない入力装置や、ＣＰＵ１０及びＧＰＵ２０の演算結果を出力する図示されない出力装置を備えてもよい。入力装置は例えばキーボードであり出力装置は例えばディスプレイである。演算を制御する情報は、例えばプログラムである。

ホスト１００は、ＣＰＵ１０及びメモリ等の周辺回路を含む。デバイス２００も、ＧＰＵ２０及びメモリ等の周辺回路を含む。ＧＰＵ２０は、ＣＰＵ１０の配下で動作する高速な演算装置である。情報処理装置１は、ホスト１００及びデバイス２００との間で複数のページを一括して転送することにより、これらの間で頻繁なデータ転送が必要となる場合において、情報処理装置１の処理速度の低下を抑制する。

ホスト１００は、ＣＰＵ１０、ローカルメモリ１０１及びデータ管理部１３を備える。
ＣＰＵ１０は、ローカルメモリ１０１上のデータを用いて演算を行う演算手段を担う。ローカルメモリ１０１はＣＰＵ１０が使用するデータを記憶するメモリを含む電気回路であり、ページテーブル１１及び転送データ領域１２を備える。ＣＰＵ１０はローカルメモリ１０１にアクセスできる。しかし、ＧＰＵ２０はローカルメモリ１０１にはアクセスできない。

ページテーブル１１はホスト１００で用いられるデータがページ単位で格納されたテーブルである。ページテーブル１１はローカルメモリ１０１に格納される。ページテーブル１１は、格納されるページ毎に、ＰＮ（Page Number）ビットフラグ、Ｖ（Valid）ビットフラグ及びＣ（Change）ビットフラグを持つ。ＰＮビットフラグはページ番号を示し、ＣＰＵ１０からのポインタアクセス時に参照される。ＶビットフラグはＣＰＵ１０からのページアクセスの有効（Ｖａｉｌｄ）又は無効（Ｉｎｖａｌｉｄ）を示す。Ｃビットフラグはそのページエントリのデータが更新されているか否かを示す。転送データ領域１２は、ホスト１００からデバイス２００へデータを転送する際に、転送の対象となるデータ（以下、「転送データ」という。）を一時的に保管する領域である。また、転送データ領域１２は、デバイス２００からホスト１００へ転送された転送データを一時的に保管する領域でもある。ホスト１００とデバイス２００との間は、データバスで接続される。データバスとしてＰＣＩ（Peripheral Component Interconnect）Ｅｘｐｒｅｓｓ（ＰＣＩｅ）を用いることができる。ホスト１００とデバイス２００との間のデータの転送は１ページずつ行われる。１ページのデータ量は、例えば４キロバイトである。

データ管理部１３は、ホスト１００とデバイス２００との間のデータ転送を管理する電気回路である。データ管理部１３はデバイス２００が備えるデータ管理部２３と通信可能に接続されている。データ管理部１３はデータ管理部２３からのデータ転送要求に応じて、転送データをページテーブル１１から転送データ領域１２へコピーする。その際、データ管理部１３は、ページテーブル２１のＶビットフラグ及びＣビットフラグの値を必要に応じて操作する。これらのビットフラグの値の意味、及び、ビットフラグの値に応じた情報処理装置１の動作の例は、本実施形態及び後の実施形態で説明する。なお、データ管理部１３及び２３は、情報処理装置１の内部で一体化されていてもよい。

データ管理部１３は、転送データをページテーブル１１のページエントリから転送データ領域１２へコピーした後、デバイス２００の転送データ領域２２へ当該転送ページを転送する。転送データの転送には、ＤＭＡ（Direct Memory Access）転送が用いられてもよい。

また、データ管理部１３は、ＣＰＵ１０がページテーブル１１を参照した際には、参照されたページエントリのＶビットフラグおよびＣビットフラグの値に応じてデータ転送要求を生成し、生成されたデータ転送要求をデータ管理部２３へ送信する。そして、データ管理部１３は、その転送要求に応じてデバイス２００からホスト１００へ転送された転送データを、ページテーブル１１の同一のページ番号のページエントリに書き込む。データ管理部１３とデータ管理部２３との間の命令や応答はデータ転送に用いられるデータバスによって送受信されてもよいし、他の経路によって送受信されてもよい。

デバイス２００は、ＧＰＵ２０、ローカルメモリ２０１及びデータ管理部２３を備える。ＧＰＵ２０は、ローカルメモリ２０１上のデータを用いて演算を行う演算手段を担う。
ローカルメモリ２０１はＧＰＵ２０が使用するデータを記憶するメモリを含む電気回路であり、ページテーブル２１及び転送データ領域２２を備える。ＧＰＵ２０はローカルメモリ２０１にアクセスできる。しかし、ＣＰＵ１０はローカルメモリ２０１にはアクセスできない。

ページテーブル２１はデバイス２００で用いられるデータがページ単位で格納されたテーブルである。ページテーブル２１はローカルメモリ２０１に格納される。ページテーブル２１は、ページテーブル１１と同様に、格納されるページ毎に、ＰＮビットフラグ、Ｖビットフラグ及びＣビットフラグを持つ。ＰＮビットフラグはページ番号を示し、ＧＰＵ２０からのポインタアクセス時に参照される。ＶビットフラグはＧＰＵ２０からのページアクセスの有効又は無効を示す。Ｃビットフラグはそのページエントリのデータが更新されているか否かを示す。転送データ領域２２は、デバイス２００からホスト１００へデータを転送する際に、転送データを一時的に保管する領域である。また、転送データ領域２２は、ホスト１００からデバイス２００へ転送された転送データを一時的に保管する領域でもある。

データ管理部２３は、デバイス２００とホスト１００との間のデータ転送を管理する電気回路である。データ管理部２３はデータ管理部１３からのデータ転送要求に応じて、転送データをページテーブル２１から転送データ領域２２へコピーする。その際、データ管理部２３は、ページテーブル２１のＶビットフラグ及びＣビットフラグの値を必要に応じて操作する。

データ管理部２３は、転送データをページテーブル２１のページエントリから転送データ領域２２へコピーした後、ホスト１００の転送データ領域１２へ当該転送ページを転送する。転送データの転送には、ＤＭＡ転送が用いられてもよい。

また、データ管理部２３は、ＧＰＵ２０がページテーブル２１を参照した際には、参照されたページエントリのＶビットフラグおよびＣビットフラグの値に応じてデータ転送要求を生成し、生成されたデータ転送要求をデータ管理部１３へ送信する。そして、データ管理部２３は、その転送要求に応じてホスト１００からデバイス２００へ転送された転送データを、ページテーブル２１の同一のページ番号のページエントリに書き込む。

（動作例の説明）
ページテーブル１１及び２１に付されたＶビットフラグに応じた転送データの転送例を説明する。図２は、情報処理装置１におけるＶビットフラグに応じたページ転送について説明する図である。情報処理装置１では、ＣＰＵ１０とＧＰＵ２０には共通の仮想アドレス空間が割り当てられる。そして、ホスト１００ではページテーブル１１、デバイス２００ではページテーブル２１が用いられる。ページテーブル１１及び２１は、それぞれ、ローカルメモリ１０１及び２０１に格納される。

ページテーブル１１及び２１の各ページエントリは、「ＰＮ」（ページ番号）、「Ｖ」（Ｖビットフラグ）、「Ｃ」（Ｃビットフラグ）及びＰＮに対応するアドレス空間のデータで構成される。ページテーブル１１及び２１において、ページエントリの処理はページテーブルのＶビットフラグに応じて切り替えられる。ここで、Ｖビットフラグは、ページテーブル１１及びページテーブル２１のそれぞれにおいて、Ｖビットフラグが付されたページのデータが最新のものであるか（すなわち、そのデータを処理に用いてよいか）どうかを示す。そして、同一のアドレスのページエントリにおいて、Ｖビットフラグの値は、ページテーブル１１及びページテーブル２１の一方では「１」（Ｖａｌｉｄ、有効）であり、他方では「０」（Ｉｎｖａｌｉｄ、無効）となるように、排他的に設定される。「有効」は、そのページのデータが最新であるため実行中のプログラムがそのページのデータを参照可能であることを示す。「無効」は、そのページのデータが最新ではないため、実行中のプログラムからの参照が禁止されていることを示す。

例えば、ページテーブル１１のあるページＸのＶビットフラグが「１」（有効）であれば、ＣＰＵ１０はページＸのデータを読み込んで処理できる。このとき、ページテーブル２１のページＸのＶビットフラグは「０」（無効）であり、ＧＰＵ２０はページテーブル２１のページＸのデータを使用できない。逆に、ページテーブル２１のあるページＹのＶビットフラグが「１」（有効）であれば、ＧＰＵ２０はページＹのデータを読み込んで処理できる。このとき、ページテーブル１１のページＹのＶビットフラグは「０」（無効）であり、ＣＰＵ１０はページテーブル１１のページＹのデータを使用できない。これは、ローカルメモリ１０１及び２０１上の最新のデータは常にどちらか一方のみであるからである。以下では、記載を簡潔にするためにページ番号（Page Number、ＰＮ）が１であることを「ＰＮ＝１」と記載し、他の値の場合や他のビットフラグについてもこれに準じて記載する。

図２を参照して、デバイス２００において、ＧＰＵ２０が、Ｖ＝０（無効）であるページテーブル２１のページにアクセスした場合について説明する。ＧＰＵ２０がページテーブル２１のＰＮ＝１のページエントリにアクセスすると（図２の［１］）、割り込みが発生し当該アクセス処理は中断される（図２の［２］）。割り込みの発生は、データ管理部２３からデータ管理部１３へ通知される。データ管理部２３は、ＧＰＵ２０がアクセスしたＰＮ＝１のデータをローカルメモリ１０１からローカルメモリ２０１へ転送する指示を生成し、生成された指示をデータ管理部１３へ送信する。

データ管理部１３は、データ管理部２３からの指示に応じて、ページテーブル１１のＰＮ＝１のページエントリのＶビットフラグをＶ＝１（有効）からＶ＝０（無効）に変更する（図２の［３］）。そして、データ管理部１３は、ページテーブル１１のＰＮ＝１のアドレスをＤＭＡ転送の転送元とした転送データの転送を設定する（図２の［４］）。転送データは、転送データ領域１２を介してデバイス２００の転送データ領域２２へＤＭＡ転送される（図２の［５］）。

最後に、データ管理部２３は、ホスト１００から転送された転送データをページテーブル２１のＰＮ＝１のページエントリに格納し（図２の［６］）、ページテーブル２１のＰＮ＝１のＶビットフラグをＶ＝０からＶ＝１に変更する（図２の［７］）。これにより、ページテーブル２１のＰＮ＝１のページのデータおよびＶビットフラグが更新され、ＧＰＵ２０は当初はアクセスできなかったＰＮ＝１のデータを使用できるようになる。その結果、ＧＰＵ２０は、割り込みから復帰してＰＮ＝１のデータを読み込んで処理を続行できる。

このように、ＧＰＵ２０がＶ＝０であるページエントリにアクセスした場合には、ページテーブル１１の同一のページ番号のページのデータがホスト１００からデバイス２００へ転送される。ページテーブル２１は、最新のデータであるページテーブル１１のデータによって更新されるため、ＧＰＵ２０がアクセスしたページテーブル２１のページエントリはＶ＝１に変更される。これにより、ＧＰＵ２０のページテーブル２１のデータが最新でない場合も、最新のデータがＣＰＵ１０のページテーブル１１から転送され、ＧＰＵ２０はそのデータを使用できる。

同様に、ＣＰＵ１０がＶ＝０であるページエントリにアクセスした場合にも、これに準じた手順によりページテーブル２１の同一ページのデータがデバイス２００からホスト１００へ転送される。そして、ＣＰＵ１０がアクセスしたページテーブル１１のページが更新されるため、ＣＰＵ１０は転送されたデータを使用できる。

以上のように、ホスト１００とデバイス２００との間でＶビットフラグを用いてページエントリの転送を行うことで、ＣＰＵ１０及びＧＰＵ２０のプログラムにおけるメモリアクセスの管理が容易になる。その結果、例えばホスト１００とデバイス２００との間でディープコピーを行うプログラムにおいてデータが最新であるかどうかをプログラム内で考慮する必要がなくなるため、情報処理装置１のプログラミングが容易となる。

図２で説明した手順では、ホスト１００とデバイス２００との間で、データは１ページ毎に自動的に転送される。このため、ホスト１００とデバイス２００との間でページのデータの転送が頻発する場合には、プログラミング時に転送処理が手作業で最適化されたプログラムと比較して、データの転送効率が低くなる場合がある。そこで、次に、ホスト１００とデバイス２００との間で複数のページのデータが一括して転送される形態を説明する。複数のページのデータを一括して転送することで、データの転送の頻度の増加が抑制され、情報処理装置１の処理速度の向上が期待される。

図３はホスト１００とデバイス２００との間での複数ページの一括転送を説明する図である。Ｖビットフラグの値に応じてページのデータを転送する処理は図２の手順と同様である。すなわち、ホスト１００のページテーブル１１及びデバイス２００のページテーブル２１の一方においてＶ＝０（無効）であるページ番号のページエントリへのアクセスが発生した場合には、他方のページから当該一方のページへデータが転送される。

図３において、ＧＰＵ２０がページテーブル２１のＰＮ＝１のページエントリ（ＰＮ＝１）にアクセスすると（図３の［１］）、Ｖ＝０(無効)であるため割り込みが発生する（図３の［２］）。割り込みの発生に伴い、データ管理部２３からデータ管理部１３へデータ転送の指示が送信される。割り込みの発生に応じて、データ管理部１３はＰＮ＝１のページを含む複数のページエントリのＶビットフラグをＶ＝１からＶ＝０に変更する（図３の［３］）。図３は、ＰＮ＝１からＰＮ＝３の３ページのページエントリにおいて、それぞれのＶビットフラグがＶ＝１からＶ＝０に変更される例を示す。その後、データ管理部１３は、ＰＮ＝１からＰＮ＝３のページエントリを転送データ領域１２から転送データ領域２２へＤＭＡ転送する（図３の［４］－［５］）。そして、データ管理部２３は、転送データをページテーブル２１のＰＮ＝１からＰＮ＝３のページエントリに格納し（図３の［６］）、ページテーブル２１のＰＮ＝１からＰＮ＝３のＶビットフラグをＶ＝０からＶ＝１に変更する（図３の［７］）。

複数のページのデータが同時に転送されることにより、デバイス２００は、ＧＰＵ２０の現在の処理に必要なデータの他に、今後の処理で使用される可能性があるページのデータを予めローカルメモリ２０１に記憶させることができる。その結果、図３で説明した手順は、ＧＰＵ２０がページエントリへアクセスした際にページエントリが無効（Ｖ＝０）である可能性を低減し、ひいてはデータ転送の頻繁な発生による情報処理装置１の性能低下を抑制できる。すなわち、本実施形態の情報処理装置１は、複数の演算装置が使用される情報処理装置において、演算装置間のデータ転送の効率を向上させることができる。

図３では、本来必要とされるＰＮ＝１のページに加えてＰＮ＝２のページ及びＰＮ＝３のページが一括して転送される例を説明した。ホスト１００からＰＮ＝１のページとともに転送されるページの選択については、いくつかの方法が考えられる。ＧＰＵ２０がアクセスしようとしたページ（図３ではＰＮ＝１）と関連性のあるページが、ＰＮ＝１のページとともに転送されてもよい。より具体的には、ＧＰＵ２０のメモリアクセスの空間的局所性に基づいてＰＮ＝１のページの近辺の複数のページから、一括して転送されるページが選択されてもよい。図３は、メモリアクセスの空間的局所性に基づいてＰＮ＝１～ＰＮ＝３のページが転送される例である。あるいは、データ管理部２３はＧＰＵ２０のメモリアクセスの統計情報を記録する機能を備えてもよい。この場合、データ管理部２３はこの統計情報に基づいてＰＮ＝１のデータの参照後に参照される可能性が高いページを選択し、選択されたページのデータが一括して転送されるようにＤＭＡ転送を設定してもよい。

なお、一括して転送されるページの総数は３ページに限られない。また、ページテーブル１１においてＶ＝０であるページエントリは、ページテーブル２１ではＶ＝１でありＧＰＵ２０が利用可能であるためホスト１００からデバイス２００への転送の対象としなくてもよい。

（第２の実施形態）
第１の実施形態の図３では、複数ページ（ＰＮ＝１からＰＮ＝３）を一括してホスト１００からデバイス２００へ転送する例を説明した。図３の例では、ホスト１００のページテーブル１１において、ＰＮ＝２のページエントリのＶビットフラグは、ページのデータがデバイス２００へ転送されることに伴いＶ＝０（無効）に変更される。従って、ＰＮ＝２のページを含む転送データをデバイス２００へ転送した後にＣＰＵ１０がＰＮ＝２のページへアクセスすると、ホスト１００において割り込みが発生する。そうすると、ホスト１００は、デバイス２００からＰＮ＝２のページを取得する必要がある。

この場合、ホスト１００から転送されたＰＮ＝２のページのデータが転送後にデバイス２００において更新されていれば、更新されたＰＮ＝２のページをデバイス２００からホスト１００へ転送する必要がある。しかし、デバイス２００において、ＰＮ＝２のページが転送後に更新されていない場合には、ＰＮ＝２のページのデータはホスト１００にあるＰＮ＝２のページのデータと同一である。従って、この場合はＰＮ＝２のページをデバイス２００からホスト１００へ転送する必要はない。

そこで、第２の実施形態では、それぞれのページエントリに設けられたＣビットフラグを利用する。Ｃビットフラグは、対応するページエントリがＣＰＵ１０またはＧＰＵ２０により更新されたか否かを表す。本実施形態では、Ｃビットフラグが「０」（Ｃ＝０）の場合はページエントリが更新されていないことを示し、Ｃビットフラグが「１」（Ｃ＝１）の場合はページエントリが更新されたことを示す。

図４はＣビットフラグを用いたページテーブル１１及び２１の管理の例を示す図である。図４ではＣビットフラグ及びＶビットフラグに応じてページのデータが転送される。Ｖビットフラグを用いた、データの基本的な転送処理は図３の手順と同様である。すなわち、デバイス２００のページテーブル２１においてＶ＝０（無効）であるページエントリへＧＰＵ２０がアクセスした場合には、ホスト１００からデバイス２００へ当該ページのデータが転送される。この場合、複数のページが一括して転送される。

図４では、図３の手順の実行によって、ＰＮ＝１～ＰＮ＝３のデータがホスト１００からコピーされた後の動作例を説明する。図３の手順の実行により、デバイス２００においてＰＮ＝１～ＰＮ＝３のＶビットフラグはすべてＶ＝１（有効）となっている。一方、ホスト１００においては、ＰＮ＝１～ＰＮ＝３のＶビットフラグはすべてＶ＝０（無効）である。ここで、ＣＰＵ１０がページテーブル１１のＰＮ＝２のエントリにアクセスすると（図４の［１］）、Ｖ＝０であるため割り込みが発生する。割り込みの発生はデータ管理部１３からデータ管理部２３へデータ転送要求として通知される（図４の［２］）。

割り込みの発生に応じて、データ管理部２３はページテーブル２１のＰＮ＝２のＣビットフラグの値を確認する（図４の［３］）。ＰＮ＝２のページエントリにおいてＣ＝０（ページが未更新）であった場合には、デバイス２００において、ＰＮ＝２のページのデータはＧＰＵ２０によって更新されていない。この場合、デバイス２００からホスト１００への当該ページの転送は不要であるため、データ管理部２３は、ＰＮ＝２のページのデータの、ホスト１００へのＤＭＡ転送を設定しない。また、ＣＰＵ１０の割り込みもキャンセルされる（図４の［４］）。

ここで、ページテーブル１１及び２１の、Ｖビットフラグ及びＣビットフラグは適宜更新される（図４の［５］）。すなわち、ＣＰＵ１０がアクセスしたＰＮ＝２のページエントリに関して、ページテーブル１１のＰＮ＝２のページエントリはＶ＝０（無効）からＶ＝１（有効）に変更され、ページテーブル２１のＰＮ＝２のページエントリはＶ＝１からＶ＝０に変更される。これにより、割り込みから復帰したＣＰＵ１０は、Ｖビットフラグの更新後に、ページテーブル１１のＰＮ＝２のページエントリにアクセスできるようになる。また、ページテーブル２１のＰＮ＝２のページエントリではＣ＝０が維持されるとともに、ページテーブル１１のＰＮ＝２のページエントリではＣ＝１に設定される。

なお、図４の［３］においてページテーブル２１のＰＮ＝２においてＣ＝１（ページが更新済）であった場合には、図２又は図３で説明したページテーブル１１からページテーブル２１へのページの転送に準じた手順が適用できる。すなわち、データ管理部２３は、ページテーブル２１のＰＮ＝２のページのデータをホスト１００へＤＭＡ転送し、データ管理部１３は転送データを用いてページテーブル１１のＰＮ＝２のページのデータを更新してＶ＝１とする。これにより、ＣＰＵ１０は、ＧＰＵ２０によって更新されたＰＮ＝２のページのデータを入手して利用できる。

図５は、図３及び図４で説明した、情報処理装置１のデータ転送の例を示すフローチャートである。ＧＰＵ２０がＰＮ＝１のページエントリへアクセスする（図５のステップＳ０１）。ＰＮ＝１においてＶ＝０（無効）の場合は（ステップＳ０２:ＹＥＳ）、ページテーブル１１の（すなわちホスト１００側の）ＰＮ＝１を含む複数ページ（ＰＮ＝１～３）がＶ＝０に設定される（ステップＳ０３）。そして、ホスト１００からデバイス２００にＰＮ＝１～３のページのデータが転送される（ステップＳ０４）。ページテーブル２１の（すなわちデバイス２００側の）ＰＮ＝１～３のページエントリは転送データによって更新され、これらのページのＶビットフラグはＶ＝１に設定される（ステップＳ０５）。
その後、ＧＰＵ２０はページテーブル２１にアクセスし、ＰＮ＝１のデータにアクセスして処理を続行する（ステップＳ０６）。ここまでの手順は第１の実施形態において図３で説明した手順である。ステップＳ０２においてデバイス２００側のＰＮ＝１のページがＶ＝１である場合は（ステップＳ０２：ＮＯ）、ページのデータの転送は行われず、ＧＰＵ２０は現在のページのデータを使用して処理を継続する。

ステップＳ０６の後は、ホスト１００においてＣＰＵ１０がＰＮ＝２のページエントリにアクセスが発生する場合（ステップＳ０７）について記載する。ホスト側のＰＮ＝２のページにおいてＶ＝１であると（ステップＳ０８：ＮＯ）、ＣＰＵ１０はＰＮ＝２のページのデータを用いて処理を実行する（ステップＳ１３）。一方、Ｖ＝０であると（ステップＳ０８：ＹＥＳ）割り込みが発生し、デバイス２００のデータ管理部２３はホスト１００のデータ管理部１３からＰＮ＝２のページの転送要求を受ける。ここで、データ管理部２３はページテーブル２１を参照し、転送要求を受けたページ（ＰＮ＝２）のＣビットフラグを確認する（ステップＳ０９）。

ステップＳ０９においてＣ＝０（ページが未更新）であった場合には（ステップＳ０９：ＮＯ）、ＰＮ＝２のページはＧＰＵ２０によって更新されていない。この場合、デバイス２００からホスト１００へのＰＮ＝２のページの転送は不要であり、転送要求がキャンセルされることでＣＰＵ１０は処理を続行できる（ステップＳ１１～Ｓ１３）。この場合、データ管理部２３はページテーブル２１のＰＮ＝２のページをＶ＝０に設定し、Ｃ＝０は維持する（ステップＳ１１）。また、データ管理部１３はページテーブル１１のＰＮ＝２のページをＶ＝１、Ｃ＝１に設定する（ステップＳ１２）。従って、割り込みから復帰したＣＰＵ１０は、ＰＮ＝２のページにおいてＶ＝１であるためＰＮ＝２のページのデータにアクセスし、処理を実行できるようになる（ステップＳ１３）。

一方、デバイス２００のＰＮ＝２のページエントリにおいてＣ＝１（ページが更新済）であった場合は（ステップＳ０９：ＹＥＳ）、ＧＰＵ２０によりＰＮ＝２のページが更新されている。この場合には、データ管理部２３は、ＰＮ＝２のページをデバイス２００からホスト１００へ転送し（ステップＳ１０）、ページテーブル２１のＰＮ＝２のページエントリをＶ＝０、Ｃ＝０に設定する（ステップＳ１１）。ホスト１００では、データ管理部１３がページテーブル１１のＰＮ＝２のページをＶ＝１、Ｃ＝１に設定する（ステップＳ１２）。これにより、ＣＰＵ１０は、ＧＰＵ２０によって更新されたＰＮ＝２のページエントリを使用して処理を継続する（ステップＳ１３）。

このように、ＣＰＵ１０又はＧＰＵ２０により対象ページが更新されているか否かを示すＣビットを新たに設けることで、複数ページが転送される場合において、転送後に更新されていないページの不必要な再転送の発生を抑制できる。その結果、本実施形態の情報処理装置１は、複数の演算装置が使用される情報処理装置において、これらの演算装置間のデータ転送の効率をさらに向上させることができる。

（第３の実施形態）
図６は、本発明の第３の実施形態の情報処理装置５００の構成例を示すブロック図である。情報処理装置５００は、第１の演算部５０１、第２の演算部５０２、ローカルメモリ５０３及び５０４、並びにデータ管理部５０５を備える。第１の演算部５０１及び第２の演算部５０２は、プログラムによって動作する演算装置であり、例えば一方はＣＰＵであり他方はＧＰＵである。第２の演算部５０２には、第１の演算部５０１と共通の仮想アドレス空間が割り当てられる。ローカルメモリ５０３は第１の演算部５０１が使用するメモリであり、ローカルメモリ５０４は第２の演算部が使用するメモリである。ローカルメモリ５０３は、第１の演算部５０１が使用するページエントリを、第１のページテーブルとして記憶する。ローカルメモリ５０４は、第２の演算部５０２が使用するページエントリを、第２のページテーブルとして記憶する。

データ管理部５０５は、第２の演算部５０２がアクセスした第２のページテーブルのページにおいて、第１のビットフラグが、第２の演算部５０２がアクセスしたページのデータが無効であることを示す場合には、転送指示を生成する。転送指示は、第２の演算部５０２がアクセスしたページと同一のページ番号のページを含む第１のページテーブルの複数のページのデータを一括して第２のページテーブルに転送する指示である。すなわち、第２の演算部５０２がアクセスしたページエントリのデータが無効である場合には、当該ページと同一のページ番号のページのデータを含む複数のページのデータが一括して第１の演算部５０１から第２の演算部５０２に転送される。

このような構成により、情報処理装置５００は、第２の演算部５０２がアクセスしたページエントリのデータが第１の演算部５０１で使用されている場合に、第１の演算部５０１と第２の演算部５０２との間のデータ転送の効率を向上させることができる。その理由は、データ管理部５０５が、複数のページを一括して第１の演算部５０１から第２の演算部５０２に転送する指令を生成するからである。これにより、１ページずつデータ転送を行う場合と比較して、データ転送が必要となる状況の発生回数を抑制できる。すなわち、情報処理装置５００は、複数の演算装置が使用される情報処理装置において、演算装置間のデータ転送の効率を向上させることができる。

以上、実施形態を参照して本発明を説明したが、本発明は上記の実施形態に限定されない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

また、それぞれの実施形態に記載された構成は、必ずしも互いに排他的なものではない。本発明の作用及び効果は、上述の実施形態の全部又は一部を組み合わせた構成によって実現されてもよい。

以上の各実施形態に記載された機能及び手順は、ＣＰＵ１０、ＧＰＵ２０又は他の演算装置がプログラムを実行することにより実現されてもよい。プログラムは、有形であり、かつ、一時的でない（tangible and non-transitory）記録媒体に記録される。記録媒体としては半導体メモリ又は固定磁気ディスク装置が用いられるが、これらには限定されない。

この出願は、２０２０年７月３日に出願された日本出願特願２０２０－１１５３０７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１情報処理装置
１０ＣＰＵ
２０ＧＰＵ
１１、２１ページテーブル
１２、２２転送データ領域
１３、２３、５０５データ管理部
１００ホスト
１０１、２０１、５０３、５０４ローカルメモリ
２００デバイス
５００情報処理装置
５０１第１の演算部
５０２第２の演算部
５０５データ管理部

Claims

第１の演算手段と、
前記第１の演算手段と共通の仮想アドレス空間が割り当てられた第２の演算手段と、
前記第１の演算手段が備えるローカルメモリに記憶された第１のページテーブルと、
前記第２の演算手段が備えるローカルメモリに記憶された第２のページテーブルと、
前記第２の演算手段がアクセスした前記第２のページテーブルのページの第１のビットフラグが前記第２の演算手段がアクセスしたページのデータの無効を示す場合には、前記第２の演算手段がアクセスしたページと同一のページ番号のページを含む前記第１のページテーブルの複数のページのデータを一括して前記第２のページテーブルに転送する転送指示を生成するデータ管理手段と、
を備える情報処理装置。
前記データ管理手段は、一括して転送される前記複数のページを、前記第２の演算手段のメモリアクセスの空間的局所性に基づいて選択する、請求項１に記載された情報処理装置。
前記データ管理手段は、
前記第２の演算手段がアクセスした前記第２のページテーブルのページの第１のビットフラグが前記第２の演算手段がアクセスした前記ページのデータの無効を示し、
かつ、
前記第２の演算手段がアクセスした前記ページと同一のページ番号の前記第１のページテーブルのページのデータが前記第１の演算手段によって変更されてないことを前記第１のページテーブルの第２のビットフラグが示す場合は、前記転送指示を取り消し、前記第２の演算手段がアクセスした前記ページの第１のビットフラグを前記第２の演算手段がアクセスした前記ページのデータの有効を示すように設定する、請求項１又は２に記載された情報処理装置。
前記第１の演算手段及び前記第２の演算手段は、それぞれ、アクセスした前記ページの前記第１のビットフラグがデータの有効を示す場合には前記データを用いた処理を行い、前記第１のビットフラグが前記データの無効を示す場合には前記データを用いた処理を行わない、
請求項１乃至３のいずれかに記載された情報処理装置。
前記データ管理手段は、同一のページ番号の前記第１のページテーブルのページ及び前記第２のページテーブルのページのそれぞれの前記第１のビットフラグの有効及び無効を排他的に設定する、請求項４に記載された情報処理装置。
前記第１の演算手段及び前記第２の演算手段の一方は中央処理装置（ＣＰＵ）であり、他方は画像処理装置（ＧＰＵ）である、請求項１乃至５のいずれかに記載された情報処理装置。
前記第１の演算手段と前記第２の演算手段との間で転送される転送データを格納するデータ格納手段を備える、請求項１乃至６のいずれかに記載された情報処理装置。
前記データ管理手段は、前記第１の演算手段の前記ローカルメモリを制御する第１の管理手段と前記第２の演算手段の前記ローカルメモリを制御する第２の管理手段とを含み、前記データ格納手段は、前記第１の管理手段が制御する第１の格納手段と前記第２の管理手段が制御する第２の格納手段とを含み、
前記第１の演算手段と、前記第１の管理手段と、前記第１の格納手段とを備える第１のデバイスと、
前記第２の演算手段と、前記第２の管理手段と、前記第２の格納手段とを備える第２のデバイスと、
を備える、請求項７に記載された情報処理装置。
共通の仮想アドレス空間が割り当てられた第１の演算手段と第２の演算手段とによって演算を行い、
前記第１の演算手段が備えるローカルメモリに第１のページテーブルを記憶し、
前記第２の演算手段が備えるローカルメモリに第２のページテーブルを記憶し、
前記第２の演算手段がアクセスした前記第２のページテーブルのページの第１のビットフラグが前記第２の演算手段がアクセスしたページのデータの無効を示す場合には、前記第２の演算手段がアクセスしたページと同一のページ番号のページを含む前記第１のページテーブルの複数のページのデータを一括して前記第２のページテーブルに転送する転送指示を生成する、
情報処理方法。
情報処理装置のコンピュータに、
共通の仮想アドレス空間が割り当てられた第１の演算手段と第２の演算手段とによって演算を行う処理、
前記第１の演算手段が備えるローカルメモリに第１のページテーブルを記憶する処理、
前記第２の演算手段が備えるローカルメモリに第２のページテーブルを記憶する処理、
前記第２の演算手段がアクセスした前記第２のページテーブルのページの第１のビットフラグが前記第２の演算手段がアクセスしたページのデータの無効を示す場合には、前記第２の演算手段がアクセスしたページと同一のページ番号のページを含む前記第１のページテーブルの複数のページのデータを一括して前記第２のページテーブルに転送する転送指示を生成する処理、
を実行させるための情報処理プログラム。