JP7256811B2

JP7256811B2 - アドバンストインタコネクト技術を利用してａｉトレーニングを加速するための方法及びシステム

Info

Publication number: JP7256811B2
Application number: JP2020536955A
Authority: JP
Inventors: ジービャオジャオ; チエンオウヤン; ハーフェイジュー; チンシューチェン; ウェイチー
Original assignee: Baidu com Times Technology Beijing Co Ltd; Kunlunxin Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Kunlunxin Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2023-04-12
Anticipated expiration: 2039-10-12
Also published as: JP2022504995A; WO2021068243A1; EP3830764A1; US11544067B2; CN113272854A; US20210318878A1; EP3830764A4; KR102472282B1; KR20210044180A

Description

本開示の実施形態は、概して機械学習に関する。より具体的には、本開示の実施形態は、ニューラルネットワークトレーニングに関する。

複雑な問題を解決するために、ニューラルネットワークはますます複雑になる。複雑なニューラルネットワークのトレーニングの際に、複雑な深層学習アルゴリズム及びより多くの帯域幅が必要であるため、トレーニング時間、コスト、消費電力が増やすことになる。トレーニングを加速するために、高級なサーバ（例えば、より複雑なインタフェースを有する高速なサーバまたはサーバクラスタ）を利用して、計算および通信を改善し、高価なハードウェアのコストを削減する。しかし、従来の解決手段では、性能およびコストの点で依然として挑戦がある。

第１の態様によれば、本開示のいくつかの実施形態は、データ処理（ＤＰ）アクセラレータを用いて、人工知能（ＡＩ）モデルをトレーニングするための、コンピュータにより実施される方法であって、ＣＰＵにより配信された複数のデータブロックを含むトレーニングデータセットに基づいて前記ＡＩモデルをトレーニングするための要求を、前記ＣＰＵから受信するステップと、論理リングに配置された複数の汎用処理ユニット（ＧＰＵ）によって複数回のＤＰ反復を実行して、前記ＡＩモデルをトレーニングするステップと、を含み、前記複数回のＤＰ反復は、各回のＤＰ反復のに対し、第１のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記複数のデータブロックの一つに対して、並行して第１の所定のＤＰ操作を実行し、それぞれの第１のＤＰ結果を生成し、第２のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、プロセッサ間リンクを介して、それぞれの第１のＤＰ結果を、更に処理するために論理リング内の下流のＧＰＵに転送する、ことを含む、コンピュータにより実施される方法を提供する。

第２の態様によれば、本開示のいくつかの実施形態は、データ処理システムであって、少なくとも一つのＣＰＵと、前記ＣＰＵに接続された複数の汎用処理ユニット（ＧＰＵ）と、を含み、前記複数のＧＰＵのそれぞれは、前記ＣＰＵから配信された人工知能ＡＩデータ処理（ＤＰ）操作を実行するように構成され、前記操作は、ＣＰＵにより配信された複数のデータブロックを含むトレーニングデータセットに基づいて前記ＡＩモデルをトレーニングするための要求を、前記ＣＰＵから受信するステップと、論理リングに配置された複数の汎用処理ユニット（ＧＰＵ）によって複数回のＤＰ反復を実行して、前記ＡＩモデルをトレーニングするステップと、を含み、前記複数回のＤＰ反復は、各回のＤＰ反復のに対し、第１のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記複数のデータブロックの一つに対して、並行して第１の所定のＤＰ操作を実行し、それぞれの第１のＤＰ結果を生成し、第２のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、プロセッサ間リンクを介して、それぞれの第１のＤＰ結果を、更に処理するために論理リング内の下流のＧＰＵに転送する、ことを含む、データ処理システムを提供する。

第３の態様によれば、本開示のいくつかの実施形態は、指令が記憶された非一時的な機械可読媒体であって、前記指令は、プロセッサによって実行されると、前記プロセッサに人工知能ＡＩトレーニングの操作を実行させ、前記操作は、ＣＰＵにより配信された複数のデータブロックを含むトレーニングデータセットに基づいて前記ＡＩモデルをトレーニングするための要求を、前記ＣＰＵから受信するステップと、論理リングに配置された複数の汎用処理ユニット（ＧＰＵ）によって複数回のＤＰ反復を実行して、前記ＡＩモデルをトレーニングするステップと、を含み、前記複数回のＤＰ反復は、各回のＤＰ反復のに対し、第１のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記複数のデータブロックの一つに対して、並行して第１の所定のＤＰ操作を実行し、それぞれの第１のＤＰ結果を生成し、第２のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、プロセッサ間リンクを介して、それぞれの第１のＤＰ結果を、更に処理するために論理リング内の下流のＧＰＵに転送する、ことを含む、非一時的な機械可読媒体を提供する。

第４の態様によれば、本開示のいくつかの実施形態は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、第１の態様に記載の方法を実現させるコンピュータプログラムを提供する。

図面は、本発明の実施形態を例示的に示しているが、本発明の実施形態を限定するものではない。図面において、類似の要素に同じ符号が付けられている。
本願実施形態に係る、ＡＩモデルのトレーニング用のシステムの一例を示す図である。図２Ａ～図２Ｆ本願実施形態に係るＡＩモデルのトレーニングにおけるデータ転送の例示的なプロセスを示す図である。図２Ａ～図２Ｆのプロセスの変形例を示すフローチャートである。本願実施形態による、データ圧縮、データ操作、および相互接続バスの例示的アーキテクチャを示す図である。一実施形態によるゼロサム圧縮技術を示す図である。一実施形態に係る圧縮データに対する操作の例を示す図である。一実施形態によるＡＩモデルトレーニングの例示的なプロセスを示す図である。

以下、本発明の実施の形態について図面を参照して説明する。以下の説明及び図面は本開示の説明であり、本開示を限定するものと解釈されるべきではない。本開示の様々な実施形態の完全な理解を提供するために、多くの特定の詳細が記載されている。しかしながら、いくつかの場合において、本開示の実施形態の簡潔な説明を提供するために、周知または従来の詳細は記載されていない。

本明細書において「一実施形態」または「実施形態」という言及は、実施形態を用いて説明された特定の特徴、構造、または特徴が、本開示の少なくとも１つの実施形態に含まれてもよいことを意味する。明細書の様々な箇所に現れる「一実施形態において」という語句は、必ずしも同じ実施形態を指すものではない。

様々な実施形態によれば、アドバンストインタコネクト技術を利用して人工知能（ＡＩ）トレーニングを加速するための方法およびシステムが提供される。本開示に記載の実施形態によれば、ソフトウェア及びハードウェアコンポーネントを利用することにより、相互接続通信帯域幅の要求、消費電力を大幅に低減させ、且つトレーニング時間を低減させ、これにより、精度損失がない状況でトレーニング性能を向上させる。分散システムにおいてシステムのデータ圧縮及び解凍を用いてＡＩモデルトレーニングを行うとともに、効率的な全減少（Ａｌｌ－Ｒｅｄｕｃｅ）アルゴリズムを併用する。

一実施形態によれば、ＡＩモデルトレーニングのコンピュータにより実施される方法は、プロセッサクラスタで、分散規約（Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅ）プロセスにおいて、複数回の反復を実行することを含み、それぞれのプロセッサは、グラフィックス処理ユニット（ＧＰＵ）であってもよい。ニューラルネットワークモデルをトレーニングするために、プロセッサは、論理リングとして配置され、それぞれのプロセッサは、複数のデータブロックを有し、それぞれのデータブロックは、ニューラルネットワークモデル内のパラメータのセットまたはパラメータのセットを更新するための勾配のセットをそれぞれ表すようにしてもよい。

各回の反復において、プロセッサは、論理リングにおける前のプロセッサから、圧縮データブロックを受信し、受信した圧縮データブロックと、現在プロセッサで生成された圧縮データブロックとに対して、操作を実行して、データブロックを演算し、演算されたデータブロックを論理リング内の後続のプロセッサに送信する。複数回の反復が終了すると、複数のプロセッサ上の各データブロックは、すべて圧縮されて操作されたことになる。この方法は、複数のプロセッサのそれぞれにおいて、圧縮データブロックを識別する操作をさらに含み、ここで、圧縮データブロックは、複数のプロセッサの対応するデータブロックから算出されたものである。

一実施形態では、識別された圧縮データブロックは、論理リング内の他のプロセッサのそれぞれに配信され、そのプロセッサ上で解凍され、ニューラルネットワークモデル内のパラメータを更新するに使用される。プロセッサは、分散型ＡＩモデルトレーニングシステムの異なるシステム内の中央処理装置（ＣＰＵ）に添付可能である。一実施形態では、各プロセッサは、ゼロ値圧縮技法を使用してデータブロックを圧縮および解凍するためのハードウェアベースまたはソフトウェアベースの圧縮モジュールを含んでも良い。圧縮データブロックは、ビットマスク部分と圧縮データ部分とを有するデータ構造によって表すことができ、ビットマスクは、データブロック内の非ゼロ値の位置を示すビットを含む。

一実施形態によれば、中央処理装置（ＣＰＵ）からＡＩトレーニングのための要求を受信すると、論理リングとして配置された汎用処理装置（ＧＰＵ）の各々は、ＣＰＵから配信されたデータブロックに対してデータ処理（ＤＰ）操作をパイプライン方式で繰り返し実行するように構成される。各ＧＰＵは、ＣＰＵに対してＤＰアクセラレータとして操作する。毎回の反復について、第１のＤＰサイクルにおいて、複数のＧＰＵは、それぞれ、データブロックのうちの１つに対して、並行して第１の所定のＤＰ操作（例えば、データ圧縮）を実行し、それぞれのＤＰ結果を生成する。第２のＤＰサイクルにおいて、複数のＧＰＵは、それぞれ、対応するプロセッサ間リンクを介して、それぞれのＤＰ結果を論理リング内の対応する下流のＧＰＵに転送し、そこでさらに処理する。説明のために、ＧＰＵをＤＰアクセラレータの例として使用するが、他のタイプのプロセッサまたは処理ロジックをＤＰアクセラレータとして使用してもよい。

一実施形態では、第２のＤＰサイクル中に、各ＧＰＵは、対応するプロセッサ間リンクを介して、論理リング内の対応する上流ＧＰＵから処理結果をも受信し、受信された処理結果は、ＧＰＵで更なる処理を実行するに用いられる。一実施形態では、第３のＤＰサイクル中に、複数のＧＰＵの各々は、自身によって処理された第１のデータブロック（例えば、処理結果）と、上流のＧＰＵから受信した第２のデータブロック（例えば、上流のＧＰＵによる処理結果）とに対して、第２の所定のＤＰ操作（例えば、加算などの結合演算）を同時に実行する。一実施形態では、第４のＤＰサイクル中に、複数のＧＰＵの各々は、データ解凍操作などのさらなるＤＰ操作を実行する。

図１は、一実施形態による、ＡＩモデルのトレーニング用のシステムの一例を示す図である。図１に示すように、システムは、複数のサーバ（例えば、サーバＡ１０３およびサーバＢ１０５）に分散された汎用処理ユニット（ＧＰＵ）クラスタ１０１を含み、各サーバは、１つまたは複数のＣＰＵを含み、各ＣＰＵは、ＧＰＵなどの１つまたは複数のデータ処理（ＤＰ）アクセラレータと関連付けられている。

サーバは、イーサネット接続１１１を介して互いに通信するＣＰＵ１０７およびＣＰＵ１０９を含むことができる。図１に示すシステム例では、各ＣＰＵは、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＤｅｖｉｃｅＩｎｔｅｒｃｏｎｎｅｃｔｉｏｎＨｉｇｈＳｐｅｅｄ）スイッチを介してＣＰＵに接続された複数のＧＰＵを有することができる。例えば、サーバＡ１０３において、ＧＰＵ１１７、ＧＰＵ１１９およびＧＰＵ１２１は、ＰＣＩｅスイッチＡ１１３を介してＣＰＵＡ１０７に接続される。サーバＢ１０５において、ＧＰＵ１２３、ＧＰＵ１２５およびＧＰＵ１２７は、ＰＣＩｅＢ１１５を介してＣＰＵＢ１０９に接続される。

ＣＰＵ１０７およびＣＰＵ１０９は、ニューラルネットワークをトレーニングするためのタスクを協働させるために、イーサネット接続１１１などのプロセッサ間リンクを介して互いに通信することができる。例えば、ジョブコマンドは、イーサネット接続１１１を介して各サーバに配信することができる。次に、ジョブコマンドを、サーバ内のＣＰＵから当該ＣＰＵに接続されたＧＰＵに配信ることができる。ジョブコマンドが配信られると、システム内のＧＰＵ間には、対応するチップ間リンク１２２を介してデータを転送可能とされる。チップ間リンク１１２には、例えば、アクセラレータ用のキャッシュコヒーレントインタコネクト（ＣＣＩＸ）リンクなど、様々なチップ間相互接続のソリューションが採用できる。図１に示すように、一方向リングトポロジーを使用することができるが、システム内のＧＰＵは、双方向リングトポロジーに配置される。

ＣＣＩＸは、ＣＣＩＸアライアンスによって開発されたオープンキャッシュコヒーレンス相互接続アーキテクチャである。ＣＣＩＸは、標準的なＰＣＩｅのキャッシュコヒーレンシを拡張することによって、システム内のＣＰＵなどの中央プロセッサとＧＰＵなどの様々なアクセラレータとの間の通信を簡略化するように設計されている。ＣＣＩＸは、異種システムアーキテクチャのためのキャッシュコヒーレンスフレームワークを提供する高性能チップ間相互接続アーキテクチャである。システム内の中央処理装置と様々な他のアクセラレータとの間のキャッシュコヒーレンシは常に自動的に維持される。ＣＣＩＸをサポートする各装置は、少なくとも１つのＣＣＩＸポートを含み、ＣＣＩＸポートは、ＣＣＩＸの起用されたあらゆる他のデバイスとは、ピン互換性がある。ＣＣＩＸは、チップ・トゥ・チップ、チップ・トゥ・スイッチ・トゥ・チップ、グリッド、デイジーチェーン、およびリングなどの様々なトポロジーをサポートする。

一実施形態では、ＧＰＵは、それぞれのＣＰＵから配信されたデータブロックに対して、パイプライン方式でＡＩトレーニング動作を実行するように構成される。それぞれのＧＰＵは、さらに、プロセッサ間リンクを介して互いに通信する。ＧＰＵは、さらなるデータ処理のために、上流のＧＰＵからの処理結果を受信するように環状に構成されてもよい。それぞれのＧＰＵは、処理結果をその対応する下流の、さらなる処理を実行するためのＧＰＵにさらに送信することができる。したがって、それぞれのＧＰＵは、並列して、配信られたＤＰ操作を実行し、そのＤＰ結果をダウンストリームＧＰＵに送信する。且つ、各ＧＰＵは、その上流のＧＰＵから処理結果を受信して、さらなる処理を実行する。

図２Ａ～図２Ｆは、一実施形態によるＡＩモデルのトレーニングにおけるデータ転送の例示的なプロセスを示す図である。ここでは、ＧＰＵ２０３、２０５、および２０７の３つのＧＰＵが示されているが、例示的なプロセスは、トレーニングされるニューラルネットワークの複雑さ、トレーニング用データのサイズ、およびユーザが所望するトレーニングの速度などの複数の要因に応じて、できる限り多くのＧＰＵ（例えば、数千個のＧＰＵ）を使用することができる。

例示的なシステム上でトレーニングされたニューラルネットワークの例は、結合されるニューロンの集合を含む多層パーセプトロン（ＭＬＰ）ニューラルネットワークを含む。ＭＬＰニューラルネットワーク内のニューロンは、１つの層内の各ニューロンが後続の層内の各ニューロンにパラメータ（例えば、重みおよびバイアス）で結合されると、完全に結合され得る。

ニューラルネットワークモデルのトレーニング中、勾配降下（すなわち、逆伝達）を使用して、ニューラルネットワークモデルの期待値と実際の出力との間の差を最小化するためのパラメータのセットを決定することができる。勾配降下は、損失／誤差関数の勾配を計算するステップと、勾配に応答して既存のパラメータを更新するステップとを含む。このサイクルは、損失関数の極小値に達するまで繰り返される。

一実施形態では、ニューラルネットワークモデルのトレーニング用データセットは、複数のサブセットに分割され、各サブセットは、ニューラルネットワークのトレーニングが複数のＧＰＵによって並行して行われるように、ＧＰＵのうちの１つ上でニューラルネットワークモデルをトレーニングするために使用される。各ＧＰＵは、ニューラルネットワークモデルの完全なコピーを有することができる。

トレーニング用データセットの各サブセットは、複数の等しいサイズのデータブロックに論理的に分割することができる。例示的なプロセスでは、ブロックの数は、ＧＰＵの数に等しい。ニューラルネットワークモデルの並列的なトレーニンは、勾配降下の複数の反復を必要とする。毎回の反復に、各ＧＰＵは、ネットワークパラメータに対する損失の勾配を計算するために、ＧＰＵ上のデータに対してニューラルネットワークモデルの順方向伝達を実行し、続いて誤差の逆伝達を実行する。次に、ＧＰＵは、互いに通信して、勾配の統計量（例えば、平均値、最大値、または最小値）を計算し、そして、統計量（例えば、平均勾配）を利用して、更新されたパラメータを得ることができる。ニューラルネットワークモデルは、多数のパラメータ（例えば、数十億のパラメータ）を有し、各パラメータは、それぞれ勾配値に関連付けられるようにすることができる。このように、ニューラルネットワークにとって、勾配の大きさは非常に大きく、ＧＰＵ間で勾配を転送することは、かなり帯域幅を占有する。

再び図２Ａ～図２Ｆを参照すると、例示的なプロセスは、ＧＰＵ間のデータ転送による要求の帯域幅を低減するためのアルゴリズムを示す。一実施形態では、本開示で使用される帯域幅とは、所与のネットワーク接続における最大データ転送レートである。当該アルゴリズムは、２つのプロセスを含むことができる。第１のプロセスは、分散規約（Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅ）プロセスであり、第２のプロセスは、全凝集（Ａｌｌｇａｔｈｅｒ）プロセスである。Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセス中において、ＧＰＵは、各ＧＰＵが多数の最終結果ブロックで終了するようにデータを交換することができる。Ａｌｌｇａｔｈｅｒプロセス中において、ＧＰＵは、すべてのＧＰＵが完全な最終結果で終わるように、これらの結果ブロックを交換することができる。

各ＧＰＵは、ＧＰＵ上のトレーニング用データセットのサブセットを等しいサイズのデータブロックに分割するように構成された１つ以上のアプリケーションを含むことができる。例示的なシステムでは、各ＧＰＵ上のデータブロックの数は、ＧＰＵの数である。ニューラルネットワークモデルのトレーニング中において、各データブロックに対しては、それ自体の勾配のセットを生成することができる。

この例では、上述したように、システム内に３つのＧＰＵが存在するので、それぞれのＧＰＵ上のデータブロックの数は３である。ＧＰＵ＃０２０３上のトレーニング用データのサブセットから、３組の勾配ａ_０２１５、ｂ_０２３１、ｃ_０２３７を生成することができ、ＧＰＵ＃１２０５上のトレーニング用データのサブセットから、さらに３組の勾配ａ_１２１７、ｂ_１２２３、ｃ_１２３９を生成することができる。同様に、ＧＰＵ＃２２０７上のトレーニング用データのサブセットから、３組の勾配ａ_２２１９、ｂ_２２３５、ｃ_２２４１が生成される。一実施形態では、各ＧＰＵ上の異なる勾配セットは、アレイまたは別のデータ構造で記憶されてもよい。

一例として、当該アルゴリズムは、トレーニング用データセットの各サブセットによって生成された勾配を合計するように設計されても良い。これにより、アルゴリズムが完了すると、各ＧＰＵは、トレーニング用データセットから生成された勾配の合計を有することになる。

例示的なプロセスにおけるＧＰＵは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセス中にＮ－１回の反復を有することができ、ここで、Ｎは、システム内のＧＰＵの総数である。このように、例示的なシステムにおけるＧＰＵは、２つの反復を有することができる。毎回の反復時、各ＧＰＵは、ＧＰＵ上の１組の勾配をその右隣に送信するとともに、その左隣から１組の勾配を受信して、当該２組の勾配を加算して１組の新しい勾配とすることができる。各ＧＰＵによって送信または受信される勾配の組は、毎回の反復に異なる。ｎ番目のＧＰＵは、ｎ番目の勾配の組が送信されたことによって開始するとともに、（ｎ－１）番目の勾配の組を受信するように、処理を逆行する。

図２Ａ～図２Ｃは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅ処理を示す図である。図２Ａは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの第１回の反復におけるデータ伝送を示す。第１の送信および第１の受信が完了した後、各ＧＰＵは、２つの異なるＧＰＵ上の２組の勾配の合計を表す値を有するアレイ要素を有する。例えば、ＧＰＵ２０５における第１の要素ａ１は、第２のＧＰＵ２０５および第１のＧＰＵ２０３からの勾配の組の合計を含むことができる。図２Ｂは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの第２回の反復におけるデータ転送を示しており、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの第１回の反復の完了後の中間和も示す。第２回の反復では、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスが続き、そして、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの終了時に（すなわち、この例では第２回の反復の後に）、各ＧＰＵは、すべてのＧＰＵに亘る、対応するアレイ要素のすべての勾配の合計を含む一つのアレイ要素を有する。図２Ｃは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅ処理終了時の最終状態を示している。

図２Ｄ～図２Ｆは、Ａｌｌｇａｔｈｅｒプロセスを示す。当該プロセスは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅと同様に行われ、且つ、Ｎ－１回の反復を有する。Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅと比べ、受信された勾配が、ＧＰＵによって受信された勾配に累積することの代わりに、受信ＧＰＵ上の対応するアレイ要素内の勾配をカバーするという点で相違する。図２Ｄは、Ａｌｌｇａｔｈｅｒプロセスの第１回の反復におけるデータ転送を示す。図２Ｅに示すように、第１回の反復が完了した後、各ＧＰＵは、すべてのＧＰＵに亘る対応するアレイ要素内のすべての勾配の合計をそれぞれ含む２つのアレイ要素を有する。図２Ｅは、第２回の反復におけるＡｌｌｇａｔｈｅｒプロセス、すなわち例示的プロセスにおける最終回の反復を示す。図２Ｆに示すように、Ａｌｌｇａｔｈｅｒプロセスの終了時に、ＧＰＵは、トレーニング用データセット全体からの完全に蓄積された勾配を有する。例示的なプロセスは、すべてのデータ転送が、離散の反復において同期して起こるので、帯域幅が最適となる。

図３は、図２Ａ～図２Ｆの処理の変形例を示すフローチャートである。一実施形態では、図３に示される例示的なプロセスを使用して、ニューラルネットワークパラメータを更新するための勾配をニューラルネットワークモデルのトレーニング中に転送することができる。ここで、分散サーバ間で数十メガバイトのデータが転送される必要があるとともに、協働して操作する必要もある。これは、性能及び遅延を改善できる効率的なハードウェア及びソフトウェアを必要とする。

一実施形態では、例示的なプロセスは、Ａｌｌ－Ｒｅｄｕｃｅアルゴリズム、を利用し、且つ、ソフトウェアとハードウェアとの協調設計により、性能および遅延を改善する。ソフトウェアとハードウェアとの協調設計とは、所望の機能を実現するために、ハードウェアとソフトウェアを同時に設計することをいう。この例示的なプロセスは、クラスタ内のＧＰＵを接続するために使用されるアクセラレータのキャッシュコヒーレンスインタコネクト（ＣＣＩＸ）などのハードウェアコンポーネントと、圧縮データに基づくハードウェア計算を可能にするゼロ値圧縮モジュールおよび他の圧縮モジュールなどのソフトウェアモジュールを使用する。この例示的なプロセスは、効率的なＡｌｌ－Ｒｅｄｕｃｅプロセスを実行するように設計された分散システムでシステムデータ圧縮を使用する。これにより、より速くトレーニングデータセットの異なるサブセットから生成された勾配を累積して各ＧＰＵに分配することができ、よって、ＡＩモデルトレーニングをより速くすることができる。

図３において、左段は、図２Ａ～図２Ｆに詳細に記載された典型的なＡｌｌ－Ｒｅｄｕｃｅプロセス３０２を示し、右段は、分散システム上でシステム圧縮を使用した改善されたＡｌｌ－Ｒｅｄｕｃｅプロセスを示す。図３は、一例として、論理リングを形成するように配置されている３つのＧＰＵを使用している。

典型的なＡｌｌ－Ｒｅｄｕｃｅプロセス３０２および改善されたＡｌｌ－Ｒｅｄｕｃｅプロセスにおいて、ＣＰＵ間で転送されるデータブロックは、データ構造（例えば、アレイ）に格納され、且つ、データブロックは、ニューラルネットワークモデルをトレーニングするために使用されるトレーニングデータセットのサブセットの異なるブロックから生成された勾配であってもよい。それぞれのＧＰＵは、トレーニングされるニューラルネットワークモデルの完全なコピーを有することができる。勾配は、ニューラルネットワークモデルのパラメータを更新するためにＧＰＵ間で渡される。

一実施形態では、各ＧＰＵ上のデータブロックは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの第１回の反復または第１の処理サイクルにおいて圧縮モジュールにより圧縮されてもよく、当該圧縮モジュールは、ハードウェア上で実施されてもよく、ソフトウェアモジュールとして実施されてもよい。例えば、操作３０１、３１５、３２９では、ＧＰＵ＃０２０３上のデータブロックａ_０、ＧＰＵ＃１２０５上のデータブロックｂ_１、ＧＰＵ＃２２０７上のデータブロックｃ_２がそれぞれ圧縮される。

圧縮データブロックは、次の処理サイクルにおいて隣接のＧＰＵに送信されてもよい。例えば、操作３０３において、ＧＰＵ＃０２０３上の圧縮データブロックをＧＰＵ＃１２０５に送信してもよく、操作３１７において、ＧＰＵ＃１２０５上の圧縮データブロックをＧＰＵ＃２２０７に送信してもよく、操作３３１において、ＧＰＵ＃２２０７上の圧縮データブロックをＧＰＵ＃０２０３に送信してもよい。

一実施形態では、圧縮データブロックが隣接のＧＰＵに送信されると同時に、各ＧＰＵ上の異なるデータブロックが圧縮され、上述のように受信された圧縮データに付加されてもよい。当該例示的な実施形態では、合計操作を例に挙げているが、他の操作（例えば、乗算、演繹、及び数学的平均など）を用いてもよい。

例えば、操作３０５において、ＧＰＵ＃０２０３上のデータブロックｃ_０は圧縮されて、ＧＰＵ＃２２０７から受信された圧縮データブロックｃ_２に付加されてもよい。操作３１９において、ＧＰＵ＃１２０５上のデータブロックａ_１は圧縮されて、ＧＰＵ＃０２０３から受信された圧縮データブロックａ_０に付加されてもよい。操作３３３において、ＧＰＵ＃２２０７上のデータブロックｂ_２が圧縮されて、ＧＰＵ＃１２０５から受信した圧縮データブロックｂ_１に追加される。

上記のプロセスは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの残りの反復ごとに繰り返すことができる。反復の回数は、ＧＰＵの数から１を引いた数であってもよい。このように、改善されたＡｌｌ－ＲｅｄｕｃｅプロセスにおけるＳｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセス３０５は、２回の反復を有することができる。残りの反復のそれぞれにおいて、各ＧＰＵは、元の圧縮データブロックをＧＰＵ上で送るのではなく、圧縮データブロックの合計を複数のＧＰＵから次のＧＰＵに送ることができる。

例えば、第２回の反復において、操作３０７において、ＧＰＵ＃０２０３は、圧縮データブロックｃ_０と圧縮データブロックｃ_２との合計をＧＰＵ＃１２０５に送信することができる。操作３２１において、ＧＰＵ＃１２０５は、圧縮データブロックａ_０と圧縮データブロックａ_１との合計をＧＰＵ＃２２０７に送信することができる。操作３３５において、ＧＰＵ＃２２０７は、圧縮データブロックｂ_１と圧縮データブロックｂ_２との合計をＧＰＵ＃０２０３に送信することができる。

一実施形態では、圧縮データブロックの合計が隣接するＧＰＵに送信されると同時に、各ＧＰＵは、ＧＰＵ上の残りのデータブロックを圧縮して、この前論理リング内の前のＧＰＵから受信した圧縮データブロックの合計に圧縮データブロックに付加されてもよい。例えば、操作３０９において、ＧＰＵ＃０２０２上のデータブロックｂ_０が圧縮され、圧縮データブロックｂ_１およびｂ_２の合計に付加されてもよい。操作３２３において、ＧＰＵ＃１２０５上のデータブロックｃ_１は、圧縮され、圧縮データブロックｃ０およびｃ_２の合計に追加されてもよい。操作３３７において、ＧＰＵ＃２２０７上のデータブロックａ_２は、圧縮されて、圧縮データブロックａ０およびａ１の合計に追加されてもよい。

したがって、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの終了時には、例示的なプロセスでは、各ＧＰＵは、アレイ内のすべてのＧＰＵに亘る対応する位置からの圧縮データブロックの合計を有する。

Ａｌｌｇａｔｈｅｒプロセス中に、各ＧＰＵは、圧縮データブロックの合計をアレイ内の対応する位置から他のＧＰＵに配信してもよい。その結果、Ａｌｌｇａｔｈｅｒプロセスの終了時に、各ＧＰＵは、全ての圧縮データブロックの合計のコピーを有することになる。その後、操作３１３、３２７、および３４１に示されるように、各ＧＰＵは、圧縮された合計を解凍してもよい。各ＧＰＵ上の解凍された合計を使用して、ＧＰＵ上のニューラルネットワークモデルのコピーのパラメータを更新することができる。

図４は、一実施形態による、データ圧縮、データ操作、および相互接続バスの例示的アーキテクチャを示す。

図４のグラフは、生（ＲＡＷ）データブロック４０５および４０７を圧縮し、圧縮しされたデータブロックを相互接続バス４１６および４１８を介して転送し、圧縮データに対して操作４１３および４１９を実行し、圧縮データを生（ＲＡＷ）データへ解凍する、データフローを示す。

図３に示すように、各ＧＰＵ上で、圧縮モジュールと解凍モジュールの対が一対使用されてもよい。例えば、ＧＰＵＡ４０１上では、圧縮モジュール４１２および解凍モジュール４０９が使用され、ＧＰＵＢ４０３上では、圧縮モジュール４１７および解凍モジュール４１５が使用されてもよい。

圧縮モジュール４１２および４１７には、任意の圧縮アルゴリズムを使用することができる。圧縮アルゴリズムの例として、ゼロ値圧縮アルゴリズム／技法があり、以下の開示において詳細に説明される。ゼロ値比が５０％である場合、ゼロ値圧縮アルゴリズムを採用することで、５０％に近いデータ転送の帯域幅を節約することができる。相互接続バスと圧縮データに対する様々な操作とが組み合わせられる場合、帯域幅のメリットは５０％を超えることができる。

図５は、一実施形態によるゼロ圧縮技術を示す。図５において、マトリクス５１３は、ニューラルネットワークモデルをトレーニングするための元の４×４データアレイである。データ構造５１０は、ゼロ値圧縮技術を使用したマトリクス５１３の圧縮形式を示している。データ構造５１０は、例えば、タイプフィールド５０１、長さフィールド５０３、ビットマスクフィールド５０５、および圧縮データフィールド５０７などの複数のフィールドを含む。マトリクス５１３およびデータ構造５１０は、圧縮５１１および解凍５０９を使用して相互に変換することができる。

一実施形態では、タイプフィールド５０１は、マトリクス５１３内の値のデータタイプを表す。データタイプの例として、浮動小数点数（ＦＰ）３２、ＦＰ１６、および整数（ＩＮＴ）８が挙げられる。長さは、バイトで、ビットマスクフィールド５０５と圧縮データフィールド５０７との合計サイズを表し、又は、一定のサイズのビットマスクバイトを有する圧縮データフィールド５０７のサイズを表す。ビットマスクフィールド５０５は、行列５１３内の特定の位置における非ゼロ値を表すために「１」に設定され、ゼロ値を表すために「０」に設定される。圧縮データフィールド５０７は、正しいアラインメント／オフセットを有する非ゼロ値データのみを含む。ビットマスクフィールドは、非ゼロで値を４×４データアレイ５１３内の元の位置に書き戻すために、解凍モジュール（例えば、図４の解凍モジュール４０９または４１５）によって使用されてもよい。

図６は、本実施形態に係る圧縮データに対する操作の例を示す図である。図６に示すように、合計操作を例として、２つの圧縮データブロックに対してどのように操作するかを説明する。

一実施形態では、圧縮データ６１７は、マトリクスＡ６１３の圧縮形式でマトリクスＡ６１３を表すデータ構造であり、圧縮データ６１９は、マトリクスＢ６１５の圧縮形式でマトリクスＢ６１５を表すデータ構造である。これらの２つの構造は、図５に示される圧縮技術により生成され、解凍モジュール（例えば、解凍モジュール４０９または４１５）により、それぞれマトリクスＡ６１３およびマトリクスＢ６１５に解凍される。

一実施形態では、２つの圧縮されたマトリクス６１３および６１５をその圧縮形式で合計するために、ハードウェア圧縮モジュール（例えば、図４の圧縮モジュール４１１または４１７）は、まず、２つの圧縮データ構造６１７および６１９をパイプライン化して、一方のデータ構造内のビットマスクフィールド内のビットを他方のデータ構造のビットマスクフィールド内のビットと比較し、比較した結果６２１を出力することができる。

ＧＰＵ間でデータを圧縮形式で転送することによって、データ転送に必要な帯域幅を低減することができる。さらに、圧縮データブロックは、その非圧縮形式より少ないメモリを占有し、操作中にメモリから読み出され、メモリに書き込まれるビットが少ないので、圧縮データブロックの操作に必要なメモリを低減することができる。

例えば、合計操作は、２回の読み出しおよび１回の書き込みを必要とすることがある。メモリから読み書きされるデータが圧縮された形式であるため、合計操作に必要なメモリを低減することができる。

図７は、一実施形態によるＡＩモデルトレーニングの例示的なプロセス７００を示す。プロセス７００は、ソフトウェア、ハードウェア、またはそれらの組み合わせを含む処理ロジックによって実行することができる。

再び図７を参照すると、操作７０１において、論理リングとして配置された複数のプロセッサにおいて、複数回の反復を実行して、ニューラルネットワークモデルをトレーニングし、それぞれのプロセッサは、複数のデータブロックを含む。操作７０２において、複数回の反復のそれぞれに対し、複数のプロセッサのうちの１つが、論理リング内の前のプロセッサから、圧縮データブロックを受信し、受信した圧縮データブロックと当該プロセッサ上で生成された圧縮データブロックとに対して操作を実行して、データブロックを算出し、算出したデータブロックを論理リング内の後続のプロセッサに送信する。操作７０３において、複数のプロセッサの各々において、複数のプロセッサからの対応するデータブロックに基づいて算出された圧縮データブロックを識別する。識別されたデータブロックは、他のプロセッサのそれぞれに配信され、そこに解凍されて、ニューラルネットワークモデルのパラメータの更新などのＡＩモデルのトレーニングに用いられる。

なお、上述した構成要素の一部または全部は、ソフトウェア、ハードウェア、またはそれらの組み合わせによって実現されてもよい。例えば、そのような構成要素は、永久記憶装置にインストールされて記憶されたソフトウェアとして実装することができ、このソフトウェアは、プロセッサ（図示せず）によってメモリにロードされて実行され、本明細書に記載のプロセスまたは操作全体を実施することができる。あるいは、そのようなコンポーネントは、集積回路（例えば、特定用途向けＩＣまたはＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの特定用途向けハードウェアにプログラムまたは組み込まれた実行可能コードとして実装することができ、実行可能コードは、対応するドライバおよび／またはオペレーティングシステムを介してアプリケーションからアクセスすることができる。さらに、そのようなコンポーネントは、１つまたは複数の特定の命令を介してソフトウェアコンポーネントによってアクセス可能な命令セットの一部として、プロセッサまたはプロセッサコア内の特定のハードウェアロジックとして実装することができる。

上述の詳細な説明の一部は、コンピュータメモリ内のデータビットの操作のアルゴリズムおよびシンボル表現に基づいて提示されている。これらのアルゴリズム記述および表現は、データ処理分野の当業者が、当業者に最も効率的にその作業内容を伝えるために使用する方法である。ここで、アルゴリズムは、一般に、所望の結果をもたらす自己適合性操作シーケンスであると考えられる。これらの操作は、物理量を物理的に操作する必要がある操作である。

これらの用語および類似の用語はすべて、適切な物理量と関連付けられ、これらの量に適用される便利なタグのみである。上述の議論から明らかなように、他に明示的に指摘されない限り、以下の特許請求の範囲に記載されているような用語を用いた説明は、コンピュータシステムのレジスタおよびメモリ内の物理的（電子的）量として表されているデータを、コンピュータシステムのメモリまたはレジスタまたは他のそのような情報記憶、送信または表示装置内の物理量として同様に表されている他のデータに変換する、コンピュータシステムまたは同様の電子計算装置の操作およびプロセスを、本明細書全体を通して意味することを理解されたい。

本開示の実施形態は、本明細書の操作を実行するための装置にも関する。このようなコンピュータプログラムは、非一時的なコンピュータ可読媒体に格納される。機械可読媒体は、機械（例えば、コンピュータ）によって読み取り可能な形態で情報を記憶するための任意の機構を含む。例えば、機械可読（例えば、コンピュータ可読）媒体は、機械可読記憶媒体、例えば、読み出し専用メモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置を含む。

前の図に描かれたプロセスまたは方法は、ハードウェア（例えば、回路、専用ロジックなど）、ソフトウェア（例えば、非一時的なコンピュータ可読媒体上に含まれる）、または両方の組み合わせを含む処理ロジックによって実行されてもよい。プロセスまたは方法は、いくつかのシーケンス操作に従って上述したが、説明したいくつかの操作は、異なるシーケンスで実行されてもよいことを理解されたい。さらに、いくつかの操作は、連続的ではなく並列に実行されてもよい。

本開示の実施形態は、特定のプログラミング言語を参照して記載されていない。本明細書に記載の本開示の実施形態の教示は、様々なプログラミング言語を使用して実施することができることを理解されたい。

以上、特定の実施形態を参照しながら、本発明について詳解してきた。以下の特許請求の範囲に記載された本開示のより広い趣旨および範囲から逸脱することなく、様々な変更を加えることができることは明らかである。したがって、本明細書および図面は、限定ではなく例示的なものと解釈されるべきである。

Claims

データ処理（ＤＰ）アクセラレータを用いて、人工知能（ＡＩ）モデルをトレーニングするための、コンピュータにより実施される方法であって、
ＣＰＵにより配信された複数のデータブロックを含むトレーニングデータセットに基づいて前記ＡＩモデルをトレーニングするための要求を、前記ＣＰＵから受信するステップと、
論理リングに配置された複数の汎用処理ユニット（ＧＰＵ）によって複数回のＤＰ反復を実行して、前記ＡＩモデルをトレーニングするステップと、を含み、
前記複数回のＤＰ反復は、
各回のＤＰ反復に対し、
第１のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記複数のデータブロックの一つに対して、データ圧縮操作を並行して実行し、それぞれの第１の圧縮データブロックを生成し、
第２のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、プロセッサ間リンクを介して、それぞれの第１の圧縮データブロックを、更に処理するために論理リング内の下流のＧＰＵに転送し、そして、それぞれ、対応するプロセッサ間リンク或いはＣＣＩＸ接続を介して、前記論理リング内の上流ＧＰＵから、当該上流ＧＰＵがデータ圧縮操作を実行して生成した第２の圧縮データブロックを、さらに処理するために受信し、
第３のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、現在のＧＰＵによって処理される第１の圧縮データブロックと、対応する上流のＧＰＵによって処理され、当該ＧＰＵから受信された第２の圧縮データブロックとに対して、合計操作を実行して、第１のＤＰ結果を生成し、
第４のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記第１のＤＰ結果に対して、データ解凍操作を実行し、解凍して得られたデータブロックは、次回のＤＰ反復に用いられる、ことを含み、
前記合計操作は、前記第１の圧縮データブロックと第２の圧縮データブロックとをパイプライン化して、一方の圧縮データブロックのビットマスクフィールド内のビットを他方の圧縮データブロックのビットマスクフィールド内のビットと比較し、比較した結果を出力する操作である、コンピュータにより実施される方法。
前記データブロックの少なくとも一部は、前記ＡＩモデルのトレーニングの一部として生成されたパラメータまたは勾配を表す、請求項１に記載の方法。
前記データ圧縮操作は、１つまたは複数のデータブロックを、ビットマスク部分および圧縮データ部分を有するデータ構造に圧縮するゼロ値圧縮アルゴリズムを使用して実行され、前記ビットマスク部分は、前記データブロックにおける非ゼロ値の位置を示すビットを含む、
請求項１に記載の方法。
データ処理システムであって、
少なくとも一つのＣＰＵと、
前記ＣＰＵに接続された複数の汎用処理ユニット（ＧＰＵ）と、を含み、
前記複数のＧＰＵのそれぞれは、前記ＣＰＵから配信された人工知能ＡＩデータ処理（ＤＰ）操作を実行するように構成され、
前記操作は、
ＣＰＵにより配信された複数のデータブロックを含むトレーニングデータセットに基づいてＡＩモデルをトレーニングするための要求を、前記ＣＰＵから受信するステップと、
論理リングに配置された複数の汎用処理ユニット（ＧＰＵ）によって複数回のＤＰ反復を実行して、前記ＡＩモデルをトレーニングするステップと、を含み、
前記複数回のＤＰ反復は、
各回のＤＰ反復に対し、
第１のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記複数のデータブロックの一つに対して、データ圧縮操作を並行して実行し、それぞれの第１の圧縮データブロックを生成し、
第２のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、プロセッサ間リンクを介して、それぞれの第１の圧縮データブロックを、更に処理するために論理リング内の下流のＧＰＵに転送し、そして、それぞれ、対応するプロセッサ間リンク或いはＣＣＩＸ接続を介して、前記論理リング内の上流ＧＰＵから、当該上流ＧＰＵがデータ圧縮操作を実行して生成した第２の圧縮データブロックを、さらに処理するために受信し、
第３のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、現在のＧＰＵによって処理される第１の圧縮データブロックと、対応する上流のＧＰＵによって処理され、当該ＧＰＵから受信された第２の圧縮データブロックとに対して、合計操作を実行して、第１のＤＰ結果を生成し、
第４のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記第１のＤＰ結果に対して、データ解凍操作を実行し、解凍して得られたデータブロックは、次回のＤＰ反復に用いられる、ことを含み、
前記合計操作は、前記第１の圧縮データブロックと第２の圧縮データブロックとをパイプライン化して、一方の圧縮データブロックのビットマスクフィールド内のビットを他方の圧縮データブロックのビットマスクフィールド内のビットと比較し、比較した結果を出力する操作である、データ処理システム。
指令が記憶された非一時的な機械可読媒体であって、
前記指令は、プロセッサによって実行されると、前記プロセッサに人工知能ＡＩトレーニングの操作を実行させ、前記操作は、
ＣＰＵにより配信された複数のデータブロックを含むトレーニングデータセットに基づいてＡＩモデルをトレーニングするための要求を、前記ＣＰＵから受信するステップと、
論理リングに配置された複数の汎用処理ユニット（ＧＰＵ）によって複数回のＤＰ反復を実行して、前記ＡＩモデルをトレーニングするステップと、を含み、
前記複数回のＤＰ反復は、
各回のＤＰ反復に対し、
第１のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記複数のデータブロックの一つに対して、データ圧縮操作を並行して実行し、それぞれの第１の圧縮データブロックを生成し、
第２のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、プロセッサ間リンクを介して、それぞれの第１の圧縮データブロックを、更に処理するために論理リング内の下流のＧＰＵに転送し、そして、それぞれ、対応するプロセッサ間リンク或いはＣＣＩＸ接続を介して、前記論理リング内の上流ＧＰＵから、当該上流ＧＰＵがデータ圧縮操作を実行して生成した第２の圧縮データブロックを、さらに処理するために受信し、
第３のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、現在のＧＰＵによって処理される第１の圧縮データブロックと、対応する上流のＧＰＵによって処理され、当該ＧＰＵから受信された第２の圧縮データブロックとに対して、合計操作を実行して、第１のＤＰ結果を生成し、
第４のＤＰサイクルにおいて、前記複数のＧＰＵは、それぞれ、前記第１のＤＰ結果に対して、データ解凍操作を実行し、解凍して得られたデータブロックは、次回のＤＰ反復に用いられる、ことを含み、
前記合計操作は、前記第１の圧縮データブロックと第２の圧縮データブロックとをパイプライン化して、一方の圧縮データブロックのビットマスクフィールド内のビットを他方の圧縮データブロックのビットマスクフィールド内のビットと比較し、比較した結果を出力する操作である、非一時的な機械可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、前記請求項１乃至３の何れか一項に記載の方法を実現させるコンピュータプログラム。