JP2023127069A

JP2023127069A - 情報処理装置およびメモリアクセス制御方法

Info

Publication number: JP2023127069A
Application number: JP2022030617A
Authority: JP
Inventors: 健飯澤; Takeshi Iizawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2023-09-13
Also published as: US20230281129A1

Abstract

【課題】複数の深層学習で使用するデータを共有メモリに読み書きする場合、共有メモリから計算ユニットへのデータの転送が間に合わずに逆伝播処理が遅れる頻度を低減し、深層学習の実行効率の低下を抑制する。【解決手段】情報処理装置は、深層学習をそれぞれ実行する複数の計算ユニットと、複数の計算ユニットにより共有される共有メモリと、順伝播処理で生成されるデータの共有メモリへの書き込み要求と、逆伝播処理に使用されるデータの共有メモリからの読み出し要求と、逆伝播処理の開始時刻とを保持するアクセス情報保持部と、アクセス情報保持部に保持された情報に基づいて、逆伝播処理の開始時刻までに共有メモリからデータが転送されるように、計算ユニットと共有メモリとの間でのデータ転送をスケジューリングし、スケジューリング結果に基づいて共有メモリにアクセスするスケジューリング部と、を有する。【選択図】図６

Description

本発明は、情報処理装置およびメモリアクセス制御方法に関する。

複数の計算機に共有される共有キャッシュと共有メモリとを有し、計算機のメモリアクセスの履歴に基づいて共有メモリから共有キャッシュにデータを予め転送することで、アクセス性能を向上するシステムが知られている（例えば、特許文献１、２参照）。

特開平６－３２４９４２号公報特開２００５－１５７７１１号公報

ところで、誤差逆伝播法によるディープニューラルネットワークの訓練では、訓練を実行するワークロードは、順伝播処理で算出した各レイヤの学習データを使用して逆伝播処理を実行することで各レイヤで使用する重みを更新する。例えば、ディープニューラルネットワークの訓練において、順伝播処理で生成した学習データを外部メモリに退避し、逆伝播処理の実行時に外部メモリから学習データを読み出す場合がある。

例えば、複数のワークロードにより複数のディープニューラルネットワークの訓練が並列に実行され、複数の学習データが共有メモリに保持される場合、共有メモリのアクセスが競合する場合がある。共有メモリのアクセスの競合により、逆伝播処理で使用する学習データが逆伝播処理の開始時までに共有メモリから転送されない場合、逆伝播処理の開始が遅れ、訓練時間が長くなってしまう。通常、ディープニューラルネットワークの訓練では、多数個の入力データを複数回使用して順伝播処理と逆伝播処理とが繰り返し実行される。これにより、逆伝播処理の開始の遅れ時間が積算され、訓練時間はさらに長くなる。

１つの側面では、本発明は、複数の深層学習で使用するデータを共有メモリに読み書きする場合に、共有メモリから計算ユニットへのデータの転送が間に合わずに逆伝播処理が遅れる頻度を低減し、深層学習の実行効率の低下を抑制することを目的とする。

一つの観点によれば、情報処理装置は、深層学習をそれぞれ実行する複数の計算ユニットと、前記複数の計算ユニットにより共有される共有メモリと、前記複数の計算ユニットによる順伝播処理でそれぞれ生成されるデータを前記共有メモリに書き込む書き込み要求と、前記複数の計算ユニットによる逆伝播処理にそれぞれ使用される前記データを前記共有メモリから読み出す読み出し要求と、前記逆伝播処理の開始時刻とを前記複数の計算ユニット毎に保持するアクセス情報保持部と、前記アクセス情報保持部に保持された前記書き込み要求、前記読み出し要求および前記逆伝播処理の開始時刻に基づいて、前記逆伝播処理の開始時刻までに前記共有メモリから逆伝播処理を実行する計算ユニットに前記データが転送されるように、複数の計算ユニットと前記共有メモリとの間でのデータ転送をスケジューリングし、スケジューリング結果に基づいて前記共有メモリにアクセスするスケジューリング部と、を有する。

複数の深層学習で使用するデータを共有メモリに読み書きする場合に、共有メモリから計算ユニットへのデータの転送が間に合わずに逆伝播処理が遅れる頻度を低減し、深層学習の実行効率の低下を抑制することができる。

一実施形態における情報処理装置の一例を示すブロック図である。図１の情報処理装置のアドレス空間の一例を示す説明図である。図２のリクエストキューの一例を示す説明図である。図２の空き容量管理テーブルの一例を示す説明図である。図３の逆伝播処理の開始時刻およびプリフェッチ開始時刻の計算方法の一例を示す説明図である。図１の情報処理装置によるＤＮＮの訓練の一例を示す説明図である。図１の各ワークロードがＤＮＮの訓練の前に実行する処理の一例を示すフロー図である。図１の各ワークロードが実行する順伝播処理の動作の一例を示すフロー図である。図１の各ワークロードが実行する逆伝播処理の動作の一例を示すフロー図である。図１のスケジューラの動作の一例を示すフロー図である。図１０のステップＳ６０の動作の一例を示すフロー図である。図１１の動作の続きを示すフロー図である。

以下、図面を参照して、実施形態が説明される。

図１は、一実施形態における情報処理装置の一例を示す。図１に示す情報処理装置１００は、例えば、深層学習を実行可能なサーバである。情報処理装置１００は、ＣＰＵ（Central Processing Unit）１０、ＣＰＵメモリ２０、ｎ個のＧＰＵ（Graphics Processing Unit）３０（３０１、３０２、３０３、...、３０ｎ）およびｎ個のＧＰＵメモリ４０（４０１、４０２、４０３、...、４０ｎ）を有する。また、情報処理装置１００は、ストレージ５０および入出力Ｉ／Ｆ（インタフェース）部６０を有する。

ＣＰＵ１０は、情報処理装置１００の全体を制御するとともに、プログラムを実行することでスケジューラ１２およびデバイスアロケータ１４として機能する。スケジューラ１２は、スケジューリング部の一例である。スケジューラ１２は、後述するワークロードＷＬが深層学習を実行する場合に、スケジューリングポリシに基づいて各ＧＰＵメモリ４０とＣＰＵメモリ２０とのデータ転送の順序等を決定し、決定した順序にしたがってデータ転送を実行する。スケジューラ１２の動作の例は、図１０から図１２で説明される。

デバイスアロケータ１４は、ワークロードＷＬ毎に、ワークロードＷＬで使用するＣＰＵメモリ２０の領域を割り当てる。デバイスアロケータ１４による割り当てについては、後述する。なお、スケジューラ１２およびデバイスアロケータ１４を実現するプログラムは、ＣＰＵメモリ２０に格納され、ＣＰＵ１０より実行される。

ＣＰＵメモリ２０は、ＣＰＵ１０に接続され、各ＧＰＵ３０からもアクセス可能な共有メモリである。例えば、ＣＰＵメモリ２０には、リクエストキュー２２および空き容量管理テーブル２４の領域が割り当てられる。リクエストキュー２２の例は、図３に示され、空き容量管理テーブル２４の例は、図４に示される。リクエストキュー２２は、アクセス情報保持部の一例であり、空き容量管理テーブル２４は、空き容量保持部の一例である。

特に限定されないが、ＣＰＵメモリ２０は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）等のメモリモジュールでもよい。なお、ＣＰＵメモリ２０の代わりに、ＣＸＬ（Compute Express Link）規格に対応するＣＸＬメモリ等が入出力Ｉ／Ｆ部６０に接続されてもよい。この場合、入出力Ｉ／Ｆ部６０は、ＰＣＩｅ（Peripheral Component Interconnect express）ポートを含む。

複数のＧＰＵ３０の各々は、ディープニューラルネットワークの訓練を実行可能である。以下では、ディープニューラルネットワークは、ＤＮＮとも称され、ディープニューラルネットワークの訓練は、深層学習とも称される。末尾の数値が同じＧＰＵ３０およびＧＰＵメモリ４０は、互いに接続され、深層学習を実行するワークロードＷＬ（ＷＬ１、ＷＬ２、ＷＬ３）として動作可能である。ワークロードＷＬは、深層学習を実行する計算ユニットの一例である。なお、複数のＧＰＵ３０と複数のＧＰＵメモリ４０とにより１つの計算ユニットが構築されてもよく、１つのＧＰＵ３０と１つのＧＰＵメモリ４０とにより複数の計算ユニットが構築されてもよい。

各ＧＰＵ３０は、バスＢＵＳを介してＣＰＵ１０に接続され、ＣＰＵ１０を介してＣＰＵメモリ２０にアクセス可能である。ＧＰＵメモリ４０には、例えば、深層学習で使用する訓練データ（画像データ等の入力データ）および重み等のパラメータと、図２に示すプロファイラ２６およびワークロード実行プログラム２８とが保持される。特に限定されないがＧＰＵメモリ４０は、ＳＲＡＭ（Static Random Access Memory）でもよい。ＧＰＵメモリ４０は、個別メモリの一例である。

各ワークロードＷＬ（ＧＰＵ３０）は、ワークロード処理プログラムを実行することで、深層学習の順伝播処理と逆伝播処理とを実行する。ワークロードＷＬは、深層学習の順伝播処理において、ディープニューラルネットワークのレイヤ毎に重みＷ（図６）を使用して特徴マップを生成する。また、各ワークロードＷＬは、深層学習の逆伝播処理において、順伝播処理で生成した特徴マップを使用してレイヤ毎に誤差情報を生成し、生成した誤差情報により重みＷを更新する。特徴マップは、順伝播処理および逆伝播処理で使用されるデータの一例である。

各ワークロードＷＬは、順伝播処理で生成した特徴マップをＧＰＵメモリ４０に格納する。ＧＰＵメモリ４０に格納された特徴マップは、リクエストキュー２２に保持された情報に基づいて、スケジューラ１２によりＧＰＵメモリ４０からＣＰＵメモリ２０に転送される。ＣＰＵメモリ２０が保持する特徴マップは、リクエストキュー２２に保持された情報に基づいて、スケジューラ１２により逆伝播処理の実行前にＣＰＵメモリ２０からＧＰＵメモリ４０に転送される。

以下では、ＧＰＵメモリ４０からＣＰＵメモリ２０への特徴マップの転送（書き込み）は、オフロードとも称される。ＣＰＵメモリ２０からＧＰＵメモリ４０への特徴マップの転送（読み出し）は、プリフェッチとも称される。

各ワークロードＷＬは、特徴マップをＧＰＵメモリ４０からＣＰＵメモリ２０にオフロードするオフロード要求を、順伝播処理のレイヤ毎にリクエストキュー２２に格納する。各ワークロードＷＬは、特徴マップをＣＰＵメモリ２０からＧＰＵメモリ４０にプリフェッチするプリフェッチ要求を逆伝播処理のレイヤ毎にリクエストキュー２２に格納する。例えば、各ワークロードＷＬがオフロード要求およびプリフェッチ要求をリクエストキューに格納するタイミングは、各レイヤの深層学習を開始する前である。

ストレージ５０は、例えば、バスＢＵＳに接続される。ストレージ５０は、深層学習に使用する画像データおよび各種プログラム（スケジューラ１２、デバイスアロケータ１４、プロファイラ２６およびワークロード実行プログラム２８等）を展開可能に保持する。なお、各種プログラムは、入出力Ｉ／Ｆ部６０に接続される図示しない記録媒体に格納され、記録媒体からストレージ５０にダウンロードされ、ＣＰＵメモリ２０またはＧＰＵメモリ４０に展開されてもよい。入出力Ｉ／Ｆ部６０は、例えば、バスＢＵＳに接続される。

この実施形態では、順伝播処理および逆伝播処理の計算は、ＧＰＵ３０により実行され、ＧＰＵメモリ４０とＣＰＵメモリ２０との間のデータ転送は、ＣＰＵ１０（スケジューラ１２）により実行される。このため、順伝播処理および逆伝播処理の計算とデータ転送とは、並列に実行することができる。したがって、順伝播処理および逆伝播処理の計算のバックグラウンドでオフロードとプリフェッチとを実行することができれば、データ転送によりワークロードＷＬによる深層学習の処理時間が延びることを抑止することができる。

例えば、各ワークロードＷＬの順伝播処理および逆伝播処理において、ＣＰＵメモリ２０にアクセスするメモリアクセス時間を隠蔽するための平均メモリアクセス性能ｂ（ｗ）は、式（１）により算出される。
ｂ（ｗ）＝（ＤＴｏ＋ＤＴｐ）／ＣＡＬ …（１）

式（１）において、符号ＤＴｏは、ＣＰＵメモリ２０にオフロードする特徴マップの合計データサイズを示し、符号ＤＴｐは、ＣＰＵメモリ２０からプリフェッチする特徴マップの合計データサイズを示す。特徴マップの合計データサイズＤＴｏ、ＤＴｐは、互いに等しくてもよい。式（１）において、符号ＣＡＬは、各ワークロードＷＬの順伝播処理および逆伝播処理の合計計算時間を示す。合計データサイズＤＴｏ、ＤＴｐおよび合計計算時間ＣＡＬは、深層学習の仕様として、情報処理装置１００の外部からデバイスアロケータ１４に入力される。

なお、実際には、特徴マップのサイズ、オフロードおよびプリフェッチに掛かる時間、およびワークロードＷＬによる計算時間は、レイヤ毎に異なるので、オフロードおよびプリフェッチに掛かる時間を隠蔽できないレイヤも存在し得る。しかしながら、ここでは簡単化のため、ディープニューラルネットワークの全てのレイヤの各々で生成される特徴マップのサイズは、互いに同じであるとし、各レイヤの計算時間は、互いに同じであるとする。

デバイスアロケータ１４は、平均メモリアクセス性能ｂ（ｗ）が、ＣＰＵ１０とＣＰＵメモリ２０との間のバンド幅Ｂを超えないように、ワークロードＷＬ毎に特徴マップをオフロードするＣＰＵメモリ２０の領域を割り当てる。例えば、デバイスアロケータ１４は、バンド幅Ｂを、並列に実行されるワークロードＷＬの数ｍで除したＢ／ｍを各ワークロードＷＬに割り当てるバンド幅とする。バンド幅Ｂ／ｍは、スケジューラ１２が特徴マップをオフロードし、特徴マップをプリフェッチするときの転送性能を示す。

デバイスアロケータ１４は、ワークロードＷＬ毎にＣＰＵメモリ２０に割り当てた領域を深層学習の仕様として情報処理装置１００の外部に通知してもよい。各ワークロードＷＬは、深層学習の仕様に基づいて、図３に示すリクエストキュー２２にメモリアドレス等の情報を設定する。

図２は、図１の情報処理装置１００のアドレス空間の一例を示す。情報処理装置１００のアドレス空間は、ＣＰＵ１０および各ＧＰＵ２０により共通にアクセスされる集約アドレス空間である。アドレス空間には、各ＧＰＵ３０で使用されるＧＰＵメモリ領域、管理領域、データ領域およびＣＰＵ１０が実行するプログラムが格納されるプログラム領域が割り当てられる。ＧＰＵメモリ領域は、各ＧＰＵメモリ４０に属する。管理領域、データ領域およびプログラム領域は、ＣＰＵメモリ２０に属する。

ＧＰＵメモリ領域には、ＧＰＵ３０毎に、特徴マップおよび重み等の各種データと、プロファイル結果と、ワークロードＷＬを実行するワークロード処理プログラムと、データ領域から転送される図示しないプロファイラ等とが格納される。プロファイル結果は、ＧＰＵ３０が実行するプロファイラ２６により得られる。

管理領域には、リクエストキュー２２および空き容量管理テーブル２４が格納される。データ領域には、ＧＰＵメモリ４０からオフロードされる特徴マップを保持するオフロード領域と、プロファイラ２６およびワークロード処理プログラム２８とが格納される。プログラム領域には、ＣＰＵ１０により実行されるスケジューラ１２およびデバイスアロケータ１４等が格納される。

プロファイラ２６は、深層学習を実行する前に、各ＧＰＵ３０が仮に実行するワークロードＷＬとともに実行され、ワークロードＷＬに関する情報を取得する。例えば、仮のワークロードＷＬは、イテレーションを数十回実行する。なお、ディープニューラルネットワークの訓練は、例えば、同一サイズのデータセットに対する数百万回のイテレーションを含む場合がある。そして、数十回のイテレーションによってもワークロードＷＬの挙動をプロファイルすることが可能である。

プロファイリングにより得られる情報は、読み出し時間Ｔ_{ＩＮＰＵＴ}、順伝播処理におけるレイヤｉの計算時間Ｔ_Ｆ（ｉ）、逆伝播処理におけるレイヤｉの計算時間Ｔ_Ｂ（ｉ）、およびレイヤｉの特徴マップのサイズｓ（ｉ）を含む。読み出し時間Ｔ_{ＩＮＰＵＴ}は、訓練データ（入力データ）をストレージ５０等からＧＰＵメモリ４０に転送するために掛かる時間である。なお、特徴マップは、順伝播処理および逆伝播処理において、入力レイヤを除くレイヤｉに入力され、レイヤｉの計算に使用される。

図３は、図２のリクエストキュー２２の一例を示す。リクエストキュー２２は、オフロード要求またはプリフェッチ要求が格納される複数のエントリを有する。各エントリは、ワークロードＷＬおよびレイヤＬの識別子と、要求種別と、読み出しアドレスと、書き込みアドレスと、転送サイズと、逆伝播処理の開始時刻と、プリフェッチ開始時刻とを、レイヤ毎に保持する領域を有する。

読み出しアドレス、書き込みアドレスおよび転送サイズの数値の前に付す符号"０ｘ"は、数値が１６進数であることを示す。例えば、逆伝播処理の開始時刻およびプリフェッチ開始時刻は、深層学習に使用する訓練データのストレージ５０からの転送開始時刻に対する経過時間であり、時：分：秒で示される。オフロード要求では、読み出しアドレスは、ＧＰＵメモリ４０のアドレスを示し、書き込みアドレスは、ＣＰＵメモリ２０のアドレスを示す。プリフェッチ要求では、読み出しアドレスは、ＣＰＵメモリ２０のアドレスを示し、書き込みアドレスは、ＧＰＵメモリ４０のアドレスを示す。例えば、転送サイズの単位は、メガバイトである。

例えば、各ワークロードＷＬは、レイヤＬの計算が終了する毎に、オフロード要求の情報およびプリフェッチ要求の情報を、自ワークロードＷＬおよびレイヤＬの識別子とともにエントリのいずれかに格納する。各ワークロードＷＬは、オフロード要求の情報とともに、プリフェッチ開始時刻をエントリに格納する。各ワークロードＷＬは、プリフェッチ要求の情報とともに、逆伝播処理の開始時刻をエントリに格納する。なお、各ワークロードＷＬは、リクエストキュー２２に格納するオフロードの情報およびプリフェッチの情報を、深層学習を開始する前に計算する。

オフロード要求での書き込みアドレスおよびプリフェッチ要求での読み出しアドレスは、各ワークロードＷＬが、デバイスアロケータ１４によりワークロードＷＬ毎に割り当てられたＣＰＵメモリ２０のメモリ領域のアドレス範囲に応じて計算する。転送サイズ、逆伝播処理の開始時刻およびプリフェッチ開始時刻は、各ワークロードＷＬが、各ワークロードＷＬで実行されるプロファイラ２６により取得される情報に基づいて計算する。逆伝播処理の開始時刻およびプリフェッチ開始時刻の計算方法については、図５で説明される。

プリフェッチ開始時刻は、逆伝播処理を開始するためにＣＰＵメモリ２０からＧＰＵメモリ４０に特徴マップの転送を開始する時刻であり、ワークロードＷＬのレイヤＬ毎に設定される。各ワークロードＷＬは、プロファイリング結果に基づいて、プリフェッチの完了時刻と逆伝播処理の開始時刻とが一致するようにリクエストキュー２２に格納するプリフェッチ開始時刻を決定する。ＧＰＵメモリ４０の使用量を抑えるために、プリフェッチは、逆伝播処理の開始時刻の直前に完了することが好ましい。スケジューラ１２は、リクエストキューに保持されたプリフェッチ開始時刻に基づいて、プリフェッチの開始時刻を決定する。

図１のスケジューラ１２は、リクエストキュー２２のエントリのいずれかにオフロード要求の情報が格納された場合、オフロード要求を検出する。スケジューラ１２は、リクエストキュー２２のエントリのいずれかにプリフェッチ要求の情報が格納された場合、プリフェッチ要求を検出する。

図４は、図２の空き容量管理テーブル２４の一例を示す。空き容量管理テーブル２４は、ワークロードＷＬ毎に、ＧＰＵメモリ４０の空き容量を保持する領域を有する。各ワークロードＷＬは、順伝播処理または逆伝播処理によりワークデータを生成した場合、対応する空き容量の領域を、データの生成サイズだけ減少させる。各ワークロードＷＬは、順伝播処理または逆伝播処理の終了等によりワークデータを消去した場合、対応する空き容量の領域を、データの消去サイズだけ増加させる。

スケジューラ１２は、オフロード要求に基づいてＧＰＵメモリ４０からＣＰＵメモリ２０に特徴マップを転送した場合、対応する空き容量の領域を、転送サイズだけ増加させる。スケジューラ１２は、プリフェッチ要求に基づいてＣＰＵメモリ２０からＧＰＵメモリ４０に特徴マップを転送した場合、対応する空き容量の領域を、転送サイズだけ減少させる。

図５は、逆伝播処理の開始時刻およびプリフェッチ開始時刻の計算方法の一例を示す。図５は、ディープニューラルネットワークが４個のレイヤＬ１－Ｌ４を有する例を示す。また、図５では、ＧＰＵメモリ４０の記載が省略される。

順伝播処理では、レイヤＬ１－Ｌ４の計算が順に実行され、各レイヤＬ１－Ｌ４において特徴マップが生成される。符号Ｓ（１）、Ｓ（２）、Ｓ（３）は、レイヤＬ１、Ｌ２、Ｌ３が生成する特徴マップのサイズを示す。

レイヤＬ１－Ｌ３が生成する特徴マップは、図示しないＧＰＵメモリ４０からＣＰＵメモリ２０にオフロードされる。レイヤＬ４が生成する特徴マップは、誤差関数の計算に使用される。符号Ｔ_Ｆ（１）－Ｔ_Ｆ（４）は、レイヤＬ１－Ｌ４の順伝播処理での計算時間をそれぞれ示す。

逆伝播処理では、レイヤＬ４－Ｌ２の重みの更新処理が順に実行される。レイヤＬ４では、誤差関数の計算結果と、レイヤＬ３の順伝播処理で生成された特徴マップとを使用して誤差情報が生成され、生成された誤差情報がレイヤＬ３に出力される。レイヤＬ３では、レイヤＬ４からの誤差情報と、レイヤＬ２の順伝播処理で生成された特徴マップとを使用して誤差情報が生成され、生成された誤差情報がレイヤＬ２に出力される。

レイヤＬ２では、レイヤＬ３からの誤差情報と、レイヤＬ１の順伝播処理で生成された特徴マップとを使用して誤差情報が生成される。そして、誤差情報に基づいてレイヤＬ４－Ｌ２の重みが更新される。符号Ｔ_Ｂ（４）－Ｔ_Ｂ（１）は、レイヤＬ４－Ｌ１の逆伝播処理での計算時間をそれぞれ示す。符号ｔ_Ｂ（４）－ｔ_Ｂ（１）は、レイヤＬ４－Ｌ１の逆伝播処理の開始時刻をそれぞれ示す。符号ｔ_ｐ（３）は、レイヤＬ３の逆伝播処理に使用する特徴マップ（レイヤＬ２の順伝播処理で生成）のプリフェッチ開始時刻を示す。

図５では、一例としてレイヤＬ３の逆伝播処理の開始時刻ｔ_Ｂ（３）と、レイヤＬ３の逆伝播処理に使用する特徴マップのプリフェッチ開始時刻ｔ_ｐ（３）とを計算する計算式がそれぞれ示される。

各ワークロードＷＬにおいて、各レイヤＬｉの逆伝播処理の開始時刻ｔ_Ｂ（ｉ）は、式（２）により計算される（ｉは、１、２、３、４のいずれか）。

式（２）の右辺の第１項は、上述したように、訓練データのストレージ５０等からＧＰＵメモリ４０への転送時間を示す。式（２）の右辺の第２項は、レイヤＬ１－Ｌ４の順伝播処理の計算時間の総和を示す。式（２）の右辺の第３項は、レイヤＬ４－Ｌｉの逆伝播処理の計算時間の総和を示す。なお、誤差関数の計算時間は、各レイヤＬの計算時間に対して十分に短く、無視できるため、式（２）では省略している。

各ワークロードＷＬにおいて、各レイヤＬｉの逆伝播処理に使用する特徴マップのプリフェッチ開始時刻ｔ_ｐ（ｉ）は、式（３）により計算される。式（３）の"Ｂ／ｍ"は、上述したように、各ワークロードＷＬに割り当てられるバンド幅を示し、ＣＰＵメモリ２０のバンド幅ＢをワークロードＷＬの数ｍで除することで計算される。
ｔ_ｐ（ｉ）＝ｔ_Ｂ（ｉ）－ｓ（ｉ－１）／（Ｂ／ｍ） …（３）

図６は、図１の情報処理装置によるＤＮＮの訓練の一例を示す。図６は、ディープニューラルネットワークがＮ個のレイヤＬ１－ＬＮを有する例を示す。ワークロードＷＬは、レイヤＬ１の順伝播処理において、訓練データと重みＷ１を使用して特徴マップを生成し、生成した特徴マップをレイヤＬ２に出力する。ワークロードＷＬは、レイヤＬ２からレイヤＬＮの各々の順伝播処理において、重みＷ２から重みＷＮをそれぞれ使用してレイヤＬ２からレイヤＬＮで特徴マップを生成し、生成した特徴マップを次段のレイヤＬに出力する。レイヤＬ１からレイヤＬＮの各々で生成され、ＧＰＵメモリ４０に格納された特徴マップは、スケジューラ１２によりＣＰＵメモリ２０にオフロードされる。

ワークロードＷＬは、レイヤＬＮの逆伝播処理において、誤差関数により生成された誤差情報とＣＰＵメモリ２０からプリフェッチされるレイヤＬＮの順伝播処理で生成された特徴マップとを使用して誤差情報を生成し、生成した誤差情報をレイヤＬＮ－１に出力する。ワークロードＷＬは、レイヤＬｉの逆伝播処理において、１つ前のレイヤＬｉ＋１により生成された誤差情報とＣＰＵメモリ２０からプリフェッチされるレイヤＬｉの順伝播処理で生成された特徴マップとを使用して誤差情報を生成する。ここで、レイヤＬｉは、レイヤＬＮ－１からレイヤＬ２のいずれかである。そして、誤差情報を使用してレイヤＬＮからレイヤＬ２の重みＷが更新される。

図７は、図１の各ワークロードＷＬがＤＮＮの訓練の前に実行する処理の一例を示す。図７に示す処理は、各ワークロードＷＬがワークロード処理プログラム２８を実行することにより実現される。

まず、ステップＳ１０において、ワークロードＷＬは、プロファイラ２６を動作させながら順伝播処理および逆伝播処理を、例えば、数十イテレーション実行する。そして、ワークロードＷＬは、各レイヤｉの読み出し時間Ｔ_{ＩＮＰＵＴ}、順伝播処理での計算時間Ｔ_Ｆ（ｉ）、逆伝播処理での計算時間Ｔ_Ｂ（ｉ）および特徴マップのサイズｓ（ｉ）を取得する。

次に、ステップＳ１２において、ワークロードＷＬは、上述した式（２）を使用して、各レイヤＬｉの逆伝播処理の開始時刻ｔ_Ｂ（ｉ）を計算する。次に、ステップＳ１４において、ワークロードＷＬは、上述した式（３）を使用して、各レイヤＬｉの逆伝播処理に使用する特徴マップのプリフェッチ開始時刻ｔ_ｐ（ｉ）を計算する。

次に、ステップＳ１６において、ワークロードＷＬは、各レイヤＬｉのオフロードおよびプリフェッチで使用する読み出しアドレス、書き込みアドレスおよび転送サイズを計算し、図７に示す処理を終了する。

各ワークロードＷＬが計算したレイヤＬｉ毎の逆伝播処理の開始時刻ｔ_Ｂ（ｉ）、プリフェッチ開始時刻ｔ_ｐ（ｉ）、読み出しアドレス、書き込みアドレスおよび転送サイズは、順伝播処理の実行前にリクエストキュー２２に格納される。これにより、スケジューラ１２は、深層学習の実行時に近い状態の情報が保持されたリクエストキュー２２を使用して、オフロードおよびプリフェッチの動作を適切に制御することができる。

図８は、図１の各ワークロードＷＬが実行する順伝播処理の動作の一例を示す。図８に示す処理は、各ワークロードＷＬがワークロード処理プログラム２８を実行することにより実現される。

まず、ステップＳ２０において、ワークロードＷＬは、訓練データをレイヤＬ１に供給する。次に、ステップＳ２２において、ワークロードＷＬは、着目するレイヤＬにおいて、訓練データまたは前段のレイヤＬからの特徴マップと、重みとを使用して特徴マップを計算する。

次に、ステップＳ２４において、ワークロードＷＬは、計算した特徴マップを、次のレイヤＬに転送し、ＧＰＵメモリ４０に格納する。次に、ステップＳ２６において、ワークロードＷＬは、計算中のレイヤＬが最終レイヤＬであるか否かを判定する。ワークロードＷＬは、最終レイヤＬである場合、処理をステップＳ３０に移行し、最終レイヤＬでない場合、処理をステップＳ２８に移行する。

ステップＳ２８において、ワークロードＷＬは、レイヤ番号を＋１して更新し、処理をステップＳ２２に戻す。ステップＳ３０において、ワークロードＷＬは、順伝播処理を終了し、最終レイヤＬの計算により生成した特徴マップを誤差関数に入力し、誤差情報を計算させ、図８に示す処理を終了する。

なお、ステップＳ３０の処理は、順伝播処理ではないが、便宜上、図８の処理に含めている。また、図８には示していないが、ワークロードＷＬは、順伝播処理において、ワークデータを生成してＧＰＵメモリ４０に格納した場合、およびワークデータをＧＰＵメモリ４０から消去した場合、空き容量管理テーブル２４に保持されている空き容量を更新する。

図９は、図１の各ワークロードＷＬが実行する逆伝播処理の動作の一例を示す。図９に示す処理は、各ワークロードＷＬがワークロード処理プログラム２８を実行することにより実現される。

まず、ステップＳ４０において、ワークロードＷＬは、処理対象のレイヤＬを最終レイヤＬに設定する。次に、ステップＳ４２において、ワークロードＷＬは、誤差関数が生成した誤差情報または１つ前（番号が１つ大きい）レイヤＬが生成した誤差情報と、ＧＰＵメモリ４０からプリフェッチされる特徴マップとを処理対象のレイヤＬに入力する。ＧＰＵメモリ４０からプリフェッチされる特徴マップは、処理対象のレイヤＬが順伝播処理時に生成した特徴マップである。

次に、ステップＳ４４において、ワークロードＷＬは、処理対象のレイヤＬにおいて、特徴マップと誤差情報とを使用して誤差情報を計算する。次に、ステップＳ４６において、ワークロードＷＬは、レイヤ番号を－１して更新する。次に、ステップＳ４８において、ワークロードＷＬは、更新したレイヤ番号がレイヤＬ１を示すか否かを判定する。ワークロードＷＬは、レイヤ番号がレイヤＬ１を示す場合、図９に示す処理を終了し、レイヤ番号がレイヤＬ１以外を示す場合、処理をステップＳ４２に戻す。

なお、図９には示していないが、ワークロードＷＬは、逆伝播処理において、ワークデータを生成してＧＰＵメモリ４０に格納した場合、およびワークデータをＧＰＵメモリ４０から消去した場合、空き容量管理テーブル２４に保持されている空き容量を更新する。

図１０から図１２は、図１のスケジューラ１２の動作の一例を示す。図１０から図１２に示す処理は、ＣＰＵ１０がスケジューラ１２のプログラムを実行することにより実現される。図１０から図１２に示す処理は、情報処理装置１００のメモリアクセス制御方法の一例を示す。

なお、１つのワークロードＷＬにおいて、番号が相対的に大きいレイヤＬのオフロードは、番号が相対的に小さいレイヤＬのオフロードより先に実行されない。同様に、１つのワークロードＷＬにおいて、番号が相対的に小さいレイヤＬのプリフェッチは、番号が相対的に大きいレイヤＬのプリフェッチより先に実行されない。

まず、ステップＳ５０において、スケジューラ１２は、図３のリクエストキュー２２を参照する。次に、ステップＳ５２において、スケジューラ１２は、空き容量管理テーブル２４を参照する。

次に、ステップＳ５４において、スケジューラ１２は、リクエストキュー２２にオフロード要求またはプリフェッチ要求が格納されている場合、ステップＳ６０を実施し、オフロード要求およびプリフェッチ要求が格納されていない場合、ステップＳ５０に戻る。ステップＳ６０の処理の例は、図１１および図１２に示される。

ステップＳ６０の後、ステップＳ９０において、スケジューラ１２は、空き容量管理テーブル２４を更新する。

次に、ステップＳ９２において、スケジューラ１２は、リクエストキュー２２を更新し、処理をステップＳ５０に戻す。例えば、リクエストキュー２２に保持されたプリフェッチ開始時刻に、対応するプリフェッチが開始されない場合、スケジューラ１２は、リクエストキュー２２に保持されたプリフェッチ開始時刻を遅らせることでリクエストキュー２２を更新する。また、リクエストキュー２２に保持された逆伝播処理の開始時刻に逆伝播処理が開始されない開示されない場合、リクエストキュー２２に保持された逆伝播処理の開始時刻を遅らせることでリクエストキュー２２を更新する。

ディープニューラルネットワークの訓練の実行状態に合わせてリクエストキュー２２を更新することで、スケジューラ１２は、オフロードおよびプリフェッチを実行するか否かを適切に判断することができる。また、スケジューラ１２は、オフロードおよびプリフェッチのどちらを優先させるかを適切に判断することができる。

図１１は、図１０のステップＳ６０の動作の一例を示す。まず、ステップＳ６２において、スケジューラ１２は、リクエストキュー２２にオフロード要求が格納されている場合、ステップＳ６４に移行し、リクエストキュー２２にオフロード要求が格納されていない場合、ステップＳ６８に移行する。

ステップＳ６４において、スケジューラ１２は、リクエストキュー２２にプリフェッチ要求が格納されている場合、図１２のステップＳ７２に移行し、リクエストキュー２２にプリフェッチ要求が格納されていない場合、ステップＳ６６に移行する。ステップＳ６６において、スケジューラ１２は、オフロード要求に対応して、ＧＰＵメモリ４０からＣＰＵメモリ２０に特徴マップを転送するオフロードを実行し、処理を図１０のステップＳ９０に移行する。なお、スケジューラ１２は、リクエストキュー２２に複数のオフロード要求が格納されている場合、例えば、逆伝播処理の開始時刻またはプリフェッチ開始時刻が早いワークロードＷＬから順にオフロードを実行してもよい。

ステップＳ６８において、スケジューラ１２は、リクエストキュー２２にプリフェッチ要求が格納されている場合、図１２のステップＳ７０に移行し、リクエストキュー２２にプリフェッチ要求が格納されていない場合、処理を図１０のステップＳ９０に移行する。

ステップＳ７０において、スケジューラ１２は、プリフェッチ要求に対応して、ＣＰＵメモリ２０からＧＰＵメモリ４０に特徴マップを転送するプリフェッチを実行し、処理を図１０のステップＳ９０に移行する。なお、スケジューラ１２は、リクエストキュー２２に要求元のワークロードＷＬが互いに異なる複数のプリフェッチ要求が格納されている場合、逆伝播処理の開始時刻が早いものから順にプリフェッチを実行してもよい。

図１２のステップＳ７２において、スケジューラ１２は、図４の空き容量管理テーブル２４において、オフロードまたはプリフェッチの対象のワークロードＷＬに対応するＧＰＵメモリ４０の空き容量が第１閾値以上であるか否かを判定する。スケジューラ１２は、空き容量が第１閾値以上の場合、処理をステップＳ７４に移行し、空き容量が第１閾値未満の場合、処理をステップＳ７８に移行する。特に限定されないが、例えば、第１閾値は、ＧＰＵメモリ４０の記憶容量に対する比率で表され、７０％から８０％程度である。

ステップＳ７４において、スケジューラ１２は、プリフェッチ要求に対応して、プリフェッチをオフロードより優先的に実行する。また、スケジューラ１２は、リクエストキュー２２に要求元のワークロードＷＬが互いに異なる複数のプリフェッチ要求が格納されている場合、逆伝播処理の開始時刻が早いものから順にプリフェッチを実行する。これにより、ＧＰＵメモリ４０の記憶容量に余裕を持たせつつ、プリフェッチの完了タイミングがプリフェッチにより転送される特徴マップを使用する逆伝播処理の開始タイミングに間に合わない可能性を低くすることができる。この結果、逆伝播の処理時間が長くなることを抑制することができ、ディープニューラルネットワークの訓練効率の低下を抑制することができる。

これに対して、プリフェッチの完了タイミングがプリフェッチにより転送される特徴マップを使用する逆伝播処理の開始タイミングに間に合わない場合、ワークロードＷＬを実行するＧＰＵ３０にアイドル時間が発生するおそれがある。アイドル時間が発生した場合、当該ＧＰＵ３０による深層学習の実行時間が長くなってしまい、訓練効率が低下する。

次に、ステップＳ７６において、スケジューラ１２は、オフロードを実行し、処理を図１０のステップＳ９０に移行する。なお、優先順が下げられたオフロードの遅れによりＧＰＵ３０のアイドル時間が発生する可能性は、プリフェッチの遅れによりＧＰＵ３０にアイドル時間が発生する可能性よりも低い。

ステップＳ７８において、スケジューラ１２は、オフロード要求に対応して、オフロードをプリフェッチより優先的に実行する。スケジューラ１２は、リクエストキュー２２に複数のオフロード要求が格納されている場合、プリフェッチ開始時刻が遅いものから順にオフロードを実行する。

例えば、特徴マップがオフロードされる前に逆伝播処理に使用される場合、当該特徴マップは、ＣＰＵメモリ２０にオフロードされることなく、ＧＰＵメモリ４０から削除することができる。したがって、プリフェッチ開始時刻が遅いものから順にオフロードを実行することで、特徴マップをＣＰＵメモリ２０にオフロードしなくてよい頻度を向上することが可能になる。この結果、ＣＰＵメモリ２０のバンド幅Ｂの使用量を低減することが可能になり、情報処理装置１００の消費電力を低減することが可能になる。

次に、ステップＳ８０において、スケジューラ１２は、プリフェッチを実行し、処理を図１０のステップＳ９０に移行する。

以上、この実施形態では、スケジューラ１２は、リクエストキュー２２に保持された情報に基づいて、逆伝播処理の開始時刻までにＣＰＵメモリ２０からのプリフェッチが完了するようにデータ転送をスケジューリングする。これにより、複数のワークロードＷＬでの深層学習で使用するデータを共有メモリに読み書きする場合に、プリフェッチが間に合わないことにより逆伝播処理が遅れる頻度を低減し、深層学習の実行効率の低下を抑制することができる。

スケジューラ１２は、オフロード要求とプリフェッチ要求とがリクエストキュー２２に保持され、プリフェッチ要求の要求元のワークロードＷＬのＧＰＵメモリ４０の空き容量が第１閾値以上の場合、プリフェッチをオフロードより優先して実行する。これにより、ＧＰＵメモリ４０の記憶容量に余裕を持たせつつ、ＣＰＵメモリ２０からの特徴マップのプリフェッチを、逆伝播処理の開始時刻に対して余裕を持って実行することができる。したがって、逆伝播処理に使用する特徴マップのプリフェッチの完了が逆伝播処理の開始時刻に間に合わない可能性を低くすることができる。この結果、逆伝播の処理時間が長くなることを抑制することができ、ディープニューラルネットワークの訓練効率の低下を抑制することができる。

スケジューラ１２は、オフロード要求と複数のプリフェッチ要求とがリクエストキュー２２に保持され、プリフェッチの要求元のＧＰＵメモリ４０の空き容量が第１閾値以上の場合、逆伝播処理の開始時刻が早いものから順にプリフェッチを実行する。例えば、複数のプリフェッチ要求は、要求元のワークロードＷＬが互いに異なる。これにより、プリフェッチの完了が逆伝播処理の開始に間に合わない可能性を低くすることができる。この結果、逆伝播の処理時間が長くなることを抑制することができる。

スケジューラ１２は、オフロードの実行時に空き容量管理テーブル２４に保持された空き容量の値を減らし、プリフェッチの実行時に空き容量管理テーブル２４に保持された空き容量の値を増やす。これにより、スケジューラ１２は、空き容量管理テーブル２４を参照することで、各ＧＰＵメモリ４０の空き容量が第１閾値以上か否かを判定することができる。この結果、スケジューラ１２は、例えば、空き容量をその都度計算する場合に比べて、オフロードとプリフェチとのどちらを優先するかを容易に判断することができる。

スケジューラ１２は、複数のオフロード要求がリクエストキュー２２に保持され、複数のオフロード要求の要求元のＧＰＵメモリ４０の空き容量が第１閾値未満の場合、プリフェッチ開始時刻が遅いものから順にオフロードを実行する。例えば、複数のオフロード要求は、要求元のワークロードＷＬが互いに異なる。これにより、特徴マップをＣＰＵメモリ２０にオフロードしなくてよい頻度を向上することが可能になる。この結果、ＣＰＵメモリ２０のバンド幅Ｂの使用量を低減することが可能になり、情報処理装置１００の消費電力を低減することが可能になる。

スケジューラ１２は、リクエストキュー２２に保持されたプリフェッチ開始時刻にプリフェッチが開始されない場合、リクエストキュー２２に保持されたプリフェッチ開始時刻を遅らせる。また、スケジューラ１２は、リクエストキュー２２に保持された逆伝播処理の開始時刻に逆伝播処理が開始されない場合、リクエストキュー２２に保持された逆伝播処理の開始時刻を遅らせる。ディープニューラルネットワークの訓練の実行状態に合わせてリクエストキュー２２を更新することで、スケジューラ１２は、オフロードおよびプリフェッチを実行するか否かを適切に判断することができる。また、スケジューラ１２は、オフロードおよびプリフェッチのどちらを優先させるかを適切に判断することができる。

複数のワークロードＷＬが深層学習を実行する前に、プロファイラ２６によりリクエストキュー２２に保持する情報が決定され、決定された情報は、順伝播処理の実行前にリクエストキュー２２に格納される。これにより、スケジューラ１２は、深層学習の実行時の近い状態の情報が保持されたリクエストキュー２２を使用して、オフロードおよびプリフェッチの動作を適切に制御することができる。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１０ＣＰＵ
１２スケジューラ
１４デバイスアロケータ
２０ＣＰＵメモリ
２２リクエストキュー
２４空き容量管理テーブル
３０（３０１、３０２、３０３、３０ｎ）ＧＰＵ
４０（４０１、４０２、４０３、４０ｎ）ＧＰＵメモリ
５０ストレージ
６０入出力Ｉ／Ｆ
１００情報処理装置
ＢＵＳバス
Ｌレイヤ
ｓ（ｉ）特徴マップのサイズ
Ｔ_{ＩＮＰＵＴ} 読み出し時間
ｔ_Ｂ（ｉ）逆伝播処理の開始時刻
Ｔ_Ｂ（ｉ）逆伝播処理の計算時間
Ｔ_Ｆ（ｉ）順伝播処理の計算時間
ｔ_ｐ（ｉ）プリフェッチ開始時刻
Ｗ重み
ＷＬワークロード

Claims

深層学習をそれぞれ実行する複数の計算ユニットと、
前記複数の計算ユニットにより共有される共有メモリと、
前記複数の計算ユニットによる順伝播処理でそれぞれ生成されるデータを前記共有メモリに書き込む書き込み要求と、前記複数の計算ユニットによる逆伝播処理にそれぞれ使用される前記データを前記共有メモリから読み出す読み出し要求と、前記逆伝播処理の開始時刻とを前記複数の計算ユニット毎に保持するアクセス情報保持部と、
前記アクセス情報保持部に保持された前記書き込み要求、前記読み出し要求および前記逆伝播処理の開始時刻に基づいて、前記逆伝播処理の開始時刻までに前記共有メモリから逆伝播処理を実行する計算ユニットに前記データが転送されるように、複数の計算ユニットと前記共有メモリとの間でのデータ転送をスケジューリングし、スケジューリング結果に基づいて前記共有メモリにアクセスするスケジューリング部と、
を有する情報処理装置。
前記複数の計算ユニットに含まれ、順伝播処理で生成される前記データと前記共有メモリから転送される前記データとを保持する複数の個別メモリを有し、
前記スケジューリング部は、前記書き込み要求と前記読み出し要求とが前記アクセス情報保持部に保持され、前記読み出し要求の要求元の計算ユニットの個別メモリの空き容量が第１閾値以上の場合、前記読み出し要求に対応するデータ転送を前記書き込み要求に対応するデータ転送より優先して実行する
請求項１に記載の情報処理装置。
前記スケジューリング部は、前記書き込み要求と、要求元の計算ユニットが互いに異なる複数の前記読み出し要求が前記アクセス情報保持部に保持され、前記複数の読み出し要求の前記要求元の計算ユニットの前記個別メモリの空き容量が前記第１閾値以上の場合、前記アクセス情報保持部に保持された前記逆伝播処理の開始時刻が早いものから読み出し要求に対応するデータ転送を実行する
請求項２に記載の情報処理装置。
前記複数の個別メモリの空き容量の管理に使用される空き容量保持部を有し、
前記スケジューリング部は、前記書き込み要求に対応するデータ転送を実行した場合、データ転送元の計算ユニットに対応して前記空き容量保持部に保持された空き容量の値を減らし、前記読み出し要求に対応するデータ転送を実行した場合、データ転送先の計算ユニットに対応して前記空き容量保持部に保持された空き容量の値を増やす
請求項３に記載の情報処理装置。
前記アクセス情報保持部は、前記共有メモリからの前記データの読み出しを開始する読み出し時刻を前記複数の計算ユニット毎に保持し、
前記スケジューリング部は、前記読み出し要求と、要求元の計算ユニットが互いに異なる複数の前記書き込み要求が前記アクセス情報保持部に保持され、前記複数の書き込み要求の前記要求元の計算ユニットの前記個別メモリの空き容量が前記第１閾値未満の場合、前記アクセス情報保持部に保持された前記読み出し時刻が遅いものから書き込み要求に対応するデータ転送を実行する
請求項２ないし請求項４のいずれか１項に記載の情報処理装置。
前記スケジューリング部は、前記アクセス情報保持部に保持された前記読み出し時刻に、前記読み出し要求に対応するデータ転送が開始されない場合、前記アクセス情報保持部に保持された読み出し時刻を遅らせる
請求項５に記載の情報処理装置。
前記スケジューリング部は、前記アクセス情報保持部に保持された前記逆伝播処理の開始時刻に、逆伝播処理が開始されない場合、前記アクセス情報保持部に保持された前記逆伝播処理の開始時刻を遅らせる
請求項１ないし請求項６のいずれか１項に記載の情報処理装置。
前記アクセス情報保持部に保持される情報は、深層学習を実行する前に前記複数の計算ユニットが実行するプロファイラにより取得された順伝播処理および逆伝播処理の情報に基づいて計算され、前記アクセス情報保持部に格納される
請求項１ないし請求項７のいずれか１項に記載の情報処理装置。
深層学習をそれぞれ実行する複数の計算ユニットと、前記複数の計算ユニットにより共有される共有メモリと、前記複数の計算ユニットによる順伝播処理でそれぞれ生成されるデータを前記共有メモリに書き込む書き込み要求と、前記複数の計算ユニットによる逆伝播処理にそれぞれ使用される前記データを前記共有メモリから読み出す読み出し要求と、前記逆伝播処理の開始時刻とを前記複数の計算ユニット毎に保持するアクセス情報保持部と、を有する情報処理装置のメモリアクセス制御方法であって、
前記情報処理装置が有するスケジューリング部が、
前記アクセス情報保持部に保持された前記書き込み要求、前記読み出し要求および前記逆伝播処理の開始時刻に基づいて、前記逆伝播処理の開始時刻までに前記共有メモリから逆伝播処理を実行する計算ユニットに前記データが転送されるように、複数の計算ユニットと前記共有メモリとの間でのデータ転送をスケジューリングし、
スケジューリング結果に基づいて前記共有メモリにアクセスする
メモリアクセス制御方法。