JP2023516220A

JP2023516220A - 深層学習大規模モデル訓練の方法、システム、装置及び媒体

Info

Publication number: JP2023516220A
Application number: JP2022562519A
Authority: JP
Inventors: 漣水趙; 韶華呉
Original assignee: ▲蘇▼州浪潮智能科技有限公司
Priority date: 2020-04-16
Filing date: 2021-01-25
Publication date: 2023-04-18
Anticipated expiration: 2041-01-25
Also published as: JP7265099B2; CN111488987B; EP4131081A1; EP4131081A4; US20230146933A1; WO2021208558A1; CN111488987A; KR20230016044A

Abstract

本発明は、深層学習大規模モデル訓練の方法、システム、装置、および記憶媒体を開示する。この方法では、各トポロジ層においては、テンソルが要求されるトポロジ層のシリーズ番号に従ってテンソルを昇順で配列するステップと、テンソルを配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定するステップと、現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するステップと、現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するステップと、を実行することを含む。本発明で提供された深層学習大規模モデル訓練の方法、システム、装置、および媒体は、テンソルが使用される先後関係によってより精密で正確な移送対策を作成し、それによって性能の最大化を確保する。

Description

本出願は、２０２０年４月１６日に出願された中国特許出願第２０２０１０２９７９６２．３号（発明の名称：深層学習大規模モデルの訓練方法、システム、装置及び媒体）に基づく優先権を主張し、引用によりその全ての記載内容が本明細書に組み込まれる。

本出願は、深層学習の分野に関し、特に、深層学習大規模モデル訓練の方法、システム、装置及び媒体に関する。

ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、グラフィックス処理装置)は、深層学習大規模モデル訓練においてますます重要な位置を占め、その主な理由は、大型モデル訓練における高度な並列計算によく適しているとともに、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）での訓練よりも消費されるエネルギーが低いである。しかしながら、深層学習大規模モデルの構造が複雑になり、その必要なメモリが大きくなり、市販のＧＰＵの既存のメモリ仕様を超えるため、深層学習大規模モデルがＧＰＵで訓練することができなくなり、ＧＰＵで訓練することによる利益が失われる。

現在市販のＧＰＵのメモリ不足による影響を軽減するために、ＧＰＵのテンソルをＣＰＵの豊富なメモリで格納する方法が提案されている。大型モデルの訓練では、不要なテンソルをＧＰＵからＣＰＵに移送し、適当なタイミングで必要なテンソルをＣＰＵからＧＰＵに移送する。できる限り良好な性能を維持するため、テンソルをＣＰＵからＧＰＵに戻す場合、必要なテンソルが使用される前にＧＰＵに移送されるように、移送プロセスは可能な限り演算で非表示にする必要がある。従来技術には、以下のいくつかの欠点がある。

（１）その移送対策は粗略すぎて、全てのテンソルを同じ対策で移送し、訓練性能上に向上の余裕がある。

（２）計算グラフにおいて、同一のトポロジ層における並列計算可能な演算が多数存在するため、メモリ要件がＧＰＵのメモリを超えることを引き起こし得る、ということは従来技術では考慮されていない。

（３）いくつかのテンソルはＧＰＵ内に複数のコピーが存在することがある、ということは従来技術では考慮されていない。

上記に鑑み、本発明の実施形態の目的は、深層学習大規模モデル訓練の方法、システム、装置及びコンピュータ読み取り可能な記憶媒体を提供することである。テンソルが使用される先後関係によってより精密で正確な移送対策を作成し、テンソルが早過ぎるようにＧＰＵに移送されないように制限することによって、メモリ断片による悪影響を低減し、同一のトポロジ層での演算を再割り当てすることによって、並列計算過大によるメモリ不足の問題を解決するとともに、各トポロジ層の最大並列度を確保し、テンソルがＧＰＵに移送される前に、前のコピーが既に使用済みであるという対策を作成することによって、ＧＰＵメモリが過剰に使用される問題を解決する。

上記目的に基づき、本発明の実施形態の一態様によれば、深層学習大規模モデル訓練の方法であって、テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するステップと、前記テンソルを前記配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定するステップと、現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するステップと、現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するステップと、を含む方法を提供する。

いくつかの実施形態では、位置に異常が現れたテンソルを補正するステップは、ＧＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、ＧＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送するステップと、を含む。

いくつかの実施形態では、ＧＰＵに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えるか否かを判定するステップと、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするステップと、をさらに含むこと。

いくつかの実施形態では、前記トポロジ層における演算を再割り当てするステップは、新たなトポロジ層を作成し、元のトポロジ層におけるＧＰＵのメモリ容量を超える演算と、次のトポロジ層におけるＧＰＵのメモリ容量を超える前記の演算に関連しない演算とを前記新たなトポロジ層に移転するステップ、を含む。

本発明の実施形例の別の態様によれば、深層学習大規模モデル訓練のシステムであって、テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するように構成される順序付けモジュールと、前記テンソルを前記配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定するように構成される第１の判定モジュールと、現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するように構成される第２の判定モジュールと、現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するように構成される補正モジュールと、を含むシステムを提供する。

いくつかの実施形態では、前記補正モジュールは、ＧＰＵに位置的に異常なテンソルが存在するか否かを判定し、ＧＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定し、ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送するようにさらに構成される。

ＧＰＵに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えるか否かを判定し、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするように構成される第３の判定モジュールをさらに含む。

いくつかの実施形態では、前記第３の判定モジュールは、新たなトポロジ層を作成し、元のトポロジ層におけるＧＰＵのメモリ容量を超える演算と、次のトポロジ層におけるＧＰＵのメモリ容量を超える前記の演算に関連しない演算とを前記新たなトポロジ層に移送するようにさらに構成される。

本発明の実施形態のさらに別の態様によれば、少なくとも１つのプロセッサと、記憶装置とを含むコンピュータ装置であって、前記メモリには、前記プロセッサ上で実行可能なコンピュータ読み取り可能な命令が記憶され、前記命令は、前記プロセッサによって実行されると、上記の方法のステップを実施するコンピュータ装置をさらに提供する。

本発明の実施形態のさらに他の態様によれば、プロセッサによって実行されると、上記の方法のステップを実施するコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体をさらに提供する。

本発明は、下記の有益な技術的効果を有する。テンソルが使用される先後関連によってより精密で正確な移送対策を作成し、テンソルが早すぎるようにＧＰＵに移送されないように制限することによって、メモリ断片による悪影響を低減し、同一のトポロジ層での演算を再割り当てすることによって、並列計算の過大によるメモリ不足の問題を解決するとともに、各トポロジ層の最大並列度を確保し、テンソルがＧＰＵに移送される前に、前のコピーが既に使用済みであるという対策を作成することによって、ＧＰＵのメモリが過剰に使用される問題を解決する。

本発明の実施形態又は従来技術の技術案をより明確に説明するために、実施形態又は従来技術の説明に必要な図面を簡単に説明すると、以下の説明における図面は本発明の実施形態に過ぎず、当業者にとって、創造的な労力を払わずに、他の図面をこれらの図面に基づいて得ることができることは明らかである。
本発明で提供される深層学習大規模モデル訓練の方法の実施形態を示す図である。本発明で提供される深層学習大規模モデル訓練の方法の実施形態におけるトポロジ層での演算を再割り当てすることを示す図である。本発明で提供される深層学習大規模モデル訓練のコンピュータ装置の実施形態におけるハードウェア構成を示す図である。本発明で提供される深層学習大規模モデル訓練のシステムの実施形態を示す図である。本発明で提供されるコンピュータ読み取り可能な記憶媒体を示す図である。

本発明の目的、技術的解決策、および利点をより明確にするために、以下、具体的な実施形態を参照し、添付の図面を参照して、本発明の実施形態をさらに詳細に説明する。

なお、本発明の実施形態における「第１」及び「第２」という表現は、いずれも、二つの同じ名称が同一でない実体又は同一でないパラメータを区別するために用いられるものであり、「第１」、「第２」という表現は、単に、表現の便宜上のものであり、本発明の実施形態を限定するものと理解すべきではなく、後続の実施形態は、これについての個別の説明を省略する。

上記の目的に基づき、本発明に係る実施形態の第1の態様では、深層学習大規模モデル訓練の方法の実施形態を提供する。図1は、本発明で提供される深層学習大規模モデル訓練の方法の実施形態を示す図である。図1に示すように、本発明の実施形態は、以下のステップを含む。

ステップＳ１：テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列する、
ステップＳ２：テンソルを配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定する、
ステップＳ３：現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定する、および、
ステップＳ４：現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正する。

テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列する。例えば、テンソルａが要求される最初のトポロジ層のシリーズ番号は６であり、テンソルｂが要求される最初のトポロジ層のシリーズ番号は１１であり、テンソルｃが要求される最初のトポロジ層のシリーズ番号は１３であり、テンソルｄが要求される最初のトポロジ層のシリーズ番号は１５であると、テンソルの並び順は、ａ、ｂ、ｃ、ｄである。

テンソルを順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定する。ａ、ｂ、ｃ、ｄの順番でテンソルを順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かをリアルタイムに判定する。閾値は、例えば１０ＧＢであり、テンソルａは４ＧＢ、テンソルｂは３ＧＢ、テンソルｃは４ＧＢ、テンソルｄは３ＧＢである。テンソルａ及びテンソルｂをＧＰＵに移送した場合、４＋３＜１０のため、この時点でＧＰＵに移送されたテンソルの総和は閾値を超えないが、テンソルｃをさらにＧＰＵに移送すると、４＋３＋４＞１０のため、その時点でＧＰＵに移送されたテンソルの総和は閾値を超える。

現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定する。引き続き上記の例では、テンソルｃがＧＰＵに移送すると、ＧＰＵに移送されたテンソルの総和が閾値を超えるため、テンソルｃ、ｄがＣＰＵに移送することができる。さらに、現在のトポロジ層が最後のトポロジ層であるか否かを判定する。

現在のトポロジ層が最後のトポロジ層である場合、位置に異常が現れたテンソルを補正する。位置に異常が現れたテンソルを補正するステップは、ＧＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、ＧＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送するステップと、を含む。

いくつかの実施形態では、ＧＰＵに位置的に異常なテンソルが存在するか否かを判定するステップでは、前記テンソルの次のトポロジ層における位置はＣＰＵであるか否かを判定することを含む。異なるトポロジ層において同一のテンソルが存在する位置は異なる場合がある。例えば、テンソルｃが層４で生成され、要求される次のトポロジ層のシリーズ番号は１１である場合、計算により、テンソルｃは層６と８でＣＰＵに、層５、７、９、１０でＧＰＵに存在することが見られ、この方法は、要求される層に近づくほど、このテンソルがＧＰＵに存在する可能性が高くなることを確保し、要求される層の一つ前の層まで、このテンソルがＧＰＵに移送される必要がある。１枚のテンソルの位置が異常か否かの判断基準は、この時点でテンソルがＧＰＵに位置するが、その次の位置がＣＰＵになる、ということである。例えば、層５と層７である。上記で決定されたテンソルの位置から見れば、テンソルｃが実際にＧＰＵに位置するべきであるのは、層９と層１０であり、層４、層５及び層７の時、テンソルｃがＣＰＵに位置するべきであるのに、ＧＰＵ内に位置すると考えられ、これは実際と一致しないため、テンションｃは位置的に異常なテンソルである。

ＧＰＵに位置的に異常なテンソルが存在することに応答して、テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定する。１枚のテンソルのＧＰＵでの位置が異常か否かの判断基準は、テンソルがこの時点でＣＰＵに位置するが、その次の位置がＧＰＵになる、ということである。例えば、層６と層８である。

ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送する。ＧＰＵにスペースがあり、ＣＰＵに位置的に異常なテンソルが存在する場合、そのテンソルをＧＰＵに移送することができる。

訓練性能に影響を及ぼす要因は多岐にわたるため、テンソルがＧＰＵにタイムリーに移送されるか否かだけでなく、ｃｕＤＮＮに含まれたアクセラレータライブラリが十分に活用されるか否かことがさらに含む。ｃｕＤＮＮ（ＣＵＤＡＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｌｉｂｒａｒｙ、ＮＶＩＤＩＡ）とは、ＣＵＤＡベースのディープニューラルネットワーク加速ライブラリであり、ＣＵＤＡ（ＣｏｍｐｕｔｅＵｎｉｆｉｅｄＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ）とは、ＮＶＩＤＩＡが提出するＧＰＵベースの演算プラットフォームである。テンソルがＧＰＵに早すぎるように移送されると、ＧＰＵ内に過剰なメモリ断片が存在することになりやすく、それによって実際の訓練過程が不安定になるとともに、ＧＰＵ内余裕のあるメモリも限られてしまい、ｃｕＤＮＮにおけるより高速化のアルゴリズムを適用するのに不利となり、性能が低下する。大量の実験結果解析により、テンソルをＧＰＵに戻すタイミングを、要求される層の上位１００のトポロジ層よりも早くない、と設定すると、一般に、比較的良好な性能を得られることが分かっている。

いくつかの実施形態では、ＧＰＵに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えるか否かを判定する。前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てする。計算グラフにおいて、各トポロジ層における全ての計算は並列計算を行うことができるが、多数の並列計算が同時に存在する場合、必要なメモリがＧＰＵのメモリ容量を超える可能性があり、そのためモデルがＧＰＵで訓練できないという問題が生じる。並列計算に必要なメモリが過剰であるという問題を解決するために、各トポロジ層が収容可能な最大並列度を制御して、その必要なメモリがある閾値を超えないようにしてもよい。

いくつかの実施形態では、前記トポロジ層における演算を再割り当てするステップは、新たなトポロジ層を作成し、元のトポロジ層におけるＧＰＵのメモリ容量を超える演算と、次のトポロジ層におけるＧＰＵメモリ容量を超える前記の演算に関連しない演算とを前記新たなトポロジ層に移送する。図２は、トポロジ層における演算を再割り当てすることを示す。図２に示すように、ａ）には、元の計算グラフのトポロジ層が示されており、各層における全ての黒いノードは、並列に計算できる演算を表す。メモリを計算することにより、第１層の並列計算が設定された閾値を超えないことが見出され、したがって、第１層の並列度を再割り当てする必要はない。第２層で計算するとき、ｂ）における第２層の黒いノードに示すように、部分的な演算のみが第２層に残すことができることが見出される。残りの４つのノード（第２層の円）は新たな層になければならない、ｃ）に示すように、この4つの演算は、新たなトポロジ層に割り当てられた。新たなトポロジ層を最大の並列度にするために、元の第３層における前の４つの演算と依存関係のない演算を、新たなトポロジ層に移送してもよい。ｃ）に示すように、元の第３層における２つの演算（円）を、d)に示すように、新たなトポロジ層に割り当てられることができる。元の第３層における２つの演算が新たなトポロジ層に割り当てられたため、最大の並列度を達成するために、第３層の演算と依存関係のない演算を第３層に割り当ててもよい、d)に示すように、第３層に１つの演算(円)を割り当てることができる。残りの各トポロジ層も最大の並列度を達成するために、各トポロジ層に対して上記のステップを実行してもよい。このとき、新たに作成されたトポロジ層は、6つの演算を有し、メモリ要求が閾値を超えない場合、その6つの演算が最終的に新たなトポロジ層を構成する。メモリ要求が閾値を超える場合、層２を処理する際のステップを実行し、再割り当てを行う。

ＧＰＵでは、同一のテンソルが複数のコピーを有する場合があり、ＧＰＵのメモリが過剰に使用され、ＧＰＵのメモリ不足を引き起こしやすい。例えば、演算１～４は、同一のテンソルを使用するが、異なる移送操作によってＧＰＵに入る。演算４の実行開始時に演算１～３が完了していないと、ＧＰＵ内にそのテンソルのコピーが２つ存在し、ＧＰＵのメモリが過剰に使用され、メモリ不足にさえ至るという問題が発生する。この問題を解決するために、演算４で使用されるコピーは、演算１～３が完了した後にＧＰＵに移送され始めることを強制することができる。

本発明の実施形態は、テンソルがより早く使用されるほど、ＧＰＵに最初に移送される可能性が高いという考えに基づき、各テンソルについて、移送対策を作成し、性能の最大化を確保する。テンソルが早過ぎるようにＧＰＵに移送されることを制限することにより、メモリ断片によってもたらされる悪影響が低減する。同一のトポロジ層に制限を行い、同時に各トポロジ層の最大並列度を確保するように、並列計算の過大なトポロジ層を再割り当てすることにより、同一のトポロジ層における並列計算の過大な問題によるＧＰＵのメモリ不足の問題を解決する。本発明は、テンソルがＧＰＵに移送される前に、前のコピー既に使用されているという対策を作成することにより、ＧＰＵにおける同一テンソルの複数のコピーの問題を解決し、ＧＰＵメモリの過剰使用を回避する。

特に指摘するのは、上述した深層学習大規模モデル訓練の方法の各実施形態における各ステップは、いずれも互いに交差、置換、追加、削除できるため、これらの合理的な配列、組合、変換を深層学習大規模モデル訓練のために使用する方法も、本発明の保護範囲に属するべきであり、本発明の保護範囲を実施形態に限定するべきではない。

上記目的に基づいて、本発明に係る実施形態の第２の態様は、図４に示すように、テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するように構成される順序付けモジュール４０１と、前記テンソルを前記配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定するように構成される第１の判定モジュール４０２と、現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するように構成される第２の判定モジュール４０３と、現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するように構成される補正モジュール４０４と、を含む深層学習大規模モデル訓練のシステム４００を提供する。

いくつかの実施形態では、前記補正モジュール４０４は、ＧＰＵに位置的に異常なテンソルが存在するか否かを判定し、ＧＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定し、ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送するようにさらに構成される。

いくつかの実施形態では、システム４００は、ＧＰＵに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えるか否かを判定し、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするように構成される第３の判定モジュールをさらに含む。

上記目的に基づいて、本発明に係る実施形態の第３の態様は、少なくとも１つのプロセッサと、記憶装置とを含むコンピュータ装置を提供する。その記憶装置には、プロセッサ上で実行可能なコンピュータ読み取り可能な命令が記憶され、命令は、前記プロセッサによって実行されると、下記のステップを実施する。ステップＳ１：テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するステップ。ステップＳ２：テンソルを配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定する。ステップＳ３：現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定する。ステップＳ４：現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正する。

いくつかの実施形態では、ＧＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、ＧＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送するステップと、を含む。

いくつかの実施形態では、ＧＰＵに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えるか否かを判定するステップと、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするステップと、をさらに含む。

いくつかの実施形態では、前記トポロジ層における演算を再割り当てするステップは、新たなトポロジ層を作成し、元のトポロジ層におけるＧＰＵのメモリ容量を超える演算と、次のトポロジ層におけるＧＰＵのメモリ容量を超える前記の演算に関連しない演算とを前記新たなトポロジ層に移転する。

図３に示すように、図３は本発明で提供される深層学習大規模モデル訓練のコンピュータ装置の一実施形態のハードウェア構成を示す図である。

図３に示す装置を例にとると、この装置には、一つのプロセッサ３０１と一つの記憶装置３０２とが含まれ、さらに入力装置３０３と出力装置３０４とが含まれる。

プロセッサ３０１、記憶装置３０２、入力装置３０３、及び出力装置３０４は、バス又は他の方式で接続されてもよく、図３ではバス接続を例としている。

記憶装置３０２は、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能なプログラム、およびモジュール、例えば、本願の実施形態における深層学習大規模モデル訓練の方法に対応するプログラム命令／モジュールを記憶するために使用され得る、不揮発性コンピュータ読み取り可能な記憶媒体である。プロセッサ３０１は、記憶装置３０２に記憶された不揮発性ソフトウェアプログラム、命令、及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理、すなわち、上述した方法の実施形態における深層学習大規模モデル訓練の方法を実現する。

記憶装置３０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶する記憶プログラム領域と、深層学習大規模モデル訓練の方法の使用のため生成されたデータなどを記憶する記憶データ領域とを含み、さらに、記憶装置３０２は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つのディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステートメモリデバイスなどの不揮発性メモリを含んでもよい。いくつかの実施形態において、記憶装置３０２は、プロセッサ３０１に対して遠隔に配置されたメモリを任意選択で含み、これらの遠隔に配置されたメモリは、ネットワークを介してローカルモジュールに接続され得る。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせが挙げられるが、これらに限定されない。

入力装置３０３は、入力されたユーザ名やパスワードなどの情報を受け付けることができる。出力装置３０４は、ディスプレイなどの表示装置を含んでもよい。

１つ以上の深層学習大規模モデル訓練の方法に対応するプログラム命令／モジュールが記憶装置３０２に記憶され、プロセッサ３０１によって実行されると、上述の方法の実施形態のいずれかにおける深層学習大規模モデル訓練の方法が実行される。

以上で説明した深層学習大規模モデル訓練の方法を実行するコンピュータ装置のいずれかの実施形態は、前述した深層学習大規模モデル訓練の方法に対応する実施形態のいずれかと同一または類似の効果を奏することができる。

本発明は、図５に示すように、プロセッサ５０１によって実行されると、上記の方法を実行するコンピュータプログラム５０２を記憶したコンピュータ読み取り可能な記憶媒体５００も提供する。

最後に、当業者は、前述の実施形態の方法を実現する全て又は一部のフローは、コンピュータプログラムにより関連ハードウェアに命令して完成させることができ、深層学習大規模モデル訓練の方法のプログラムは、コンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行されると、前述の各方法の実施形態のフローを含むことができることを理解することができる。ここで、プログラムの記憶媒体は、磁気ディスク、光ディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）又はランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等であってもよい。上記コンピュータプログラムの実施形態は、それに対応する上記方法の実施形態のいずれかと同一又は類似の効果を達成することができる。

また、本発明の実施形態に係る方法は、プロセッサによって実行されるコンピュータプログラムとして具現化され、このコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体に記憶されてもよい。このコンピュータプログラムがプロセッサによって実行されると、本発明の実施形態によって開示される方法において定義される上記機能が実行される。

また、上記方法のステップ及びシステムユニットは、コントローラと、コントローラに上記ステップ又はユニットの機能を実現させるコンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体と、により実現されてもよい。

さらに、本明細書のコンピュータ読み取り可能な記憶媒体（例えば、記憶装置）は、揮発性メモリまたは不揮発性メモリのいずれかであってもよく、あるいは揮発性メモリおよび不揮発性メモリの両方を含んでもよいことが理解されるべきである。限定ではなく例として、不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ、ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、電気的消去可能なプログラマブルＲＯＭ（ＥＥＰＲＯＭ、ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、またはフラッシュメモリを含んでもよい。揮発性メモリは、外部キャッシュメモリとして機能し得るランダムアクセスメモリ（ＲＡＭ）を含み得る。限定ではなく例として、ＲＡＭは、ダイナミックＲＡＭ（ＤＲＡＭ，ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ，ＳｙｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ，ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、強化型ＳＤＲＡＭ（ＥＳＤＲＡＭ，ＥｎｈａｎｃｅｄＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、シンクロナスＤＲＡＭ（ＳＬＤＲＡＭ，ＳｙｎｃＬｉｎｋＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、およびダイレクトＲａｍｂｕｓＲＡＭ（ＤＲＲＡＭ，ＤｉｒｅｃｔＲａｍｂｕｓＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）など、様々な形態で利用可能である。開示された態様の記憶装置は、これらおよび他の適切なタイプのメモリを含むことが意図されるが、これらに限定されない。

また、当業者は、本明細書の開示に関連して説明された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを理解できる。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップの機能性に関して、一般的に説明されている。そのような機能がソフトウェアとして実装されるか、またはハードウェアとして実装されるかは、具体的な適用およびシステム全体に課せられる設計制約に依存する。当業者は、それぞれの具体的な適用に対して様々な方法で機能を実施することができるが、そのような実現の決定は、本開示の実施形態の開示の範囲からの逸脱を引き起こすものと解釈されるべきではない。

本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、および回路は、本明細書での機能を実行するために設計された以下のコンポーネントまたはその任意の組合せを用いて実装または実行され得る。例えば、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏ）、特定用途向け集積回路（ＡＳＩＣ、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理、ディスクリートハードウェアコンポーネントが挙げられる。汎用プロセッサはマイクロプロセッサであってもよいが、代替的に、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰと連携する１つもしくは複数のマイクロプロセッサ、および／または任意の他のそのような構成として実装され得る。

本明細書の開示に関連して説明された方法またはアルゴリズムのステップは、ハードウェアに直接含まれ得るか、プロセッサによって実行されるソフトウェアモジュールに直接含まれ得るか、またはその２つの組合せであり得る。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、または当技術分野で知られている任意の他の形態の記憶媒体中に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取ること、または記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体は、プロセッサと一体化され得る。プロセッサおよび記憶媒体は、ＡＳＩＣ内に存在し得る。ＡＳＩＣは、ユーザ端末内に存在し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として存在し得る。

１つまたは複数の例示的な設計では、機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ読み取り可能な媒体上に記憶されるか、またはコンピュータ読み取り可能な媒体を介して送信され得る。コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの移送を容易にする任意の媒体を含む通信媒体とを含む。記憶媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、コンピュータ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または命令もしくはデータ構造の形態の所望のプログラムコードを移送もしくは記憶するために使用され得、汎用もしくは専用コンピュータまたは汎用もしくは専用プロセッサによってアクセスされ得る、任意の他の媒体を備えることができる。また、任意の接続が、コンピュータ読み取り可能な媒体と適切に呼ばれ得る。例えば、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ、ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅＬｉｎｅ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースからソフトウェアを送信する場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術はすべて、媒体の定義に含まれる。ここで、磁気ディスク、ＣＤを含む光ディスク、レーザーディスク（登録商標）、光ディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ）、フレキシブルディスク、ブルーレイディスク等があり、磁気ディスクは一般的に磁気的にデータを再生し、光ディスクはレーザー光によって光学的にデータを再生する。上記の組合せもコンピュータ読み取り可能な媒体の範囲内に含まれるべきである。

以上、本発明の例示的な実施形態であるが、特許請求で限定された本発明の実施形態で開示された範囲から逸脱しないことを前提に、種々の変形変更が可能である。本明細書に記載の開示された実施形態による方法クレームの機能、ステップ、および／または動作は、いかなる特定の順序でも実行される必要はない。また、本発明の実施形態に開示された構成要素は、個別的な形態で説明または要約されてもよいが、単数に明確に限定されない限り、複数に理解されてもよい。

文脈が例外を明確にサポートしない限り、本明細書で使用される単数形「1つ」は複数形も含むことを目的としている。本明細書で使用される「および/または」は、関連して列挙される1つ、または複数の項目の可能な任意およびすべての組み合わせを含むことを指すことも理解されるべきである。

なお、上記で開示した実施形態の番号は、あくまでも説明のためのものであり、実施形態の優劣を示すものではない。

当業者であれば、上述した実施形態を実現するためのステップの全部または一部が、ハードウェアによって実現されてもよいし、または、プログラムによって指示されたハードウェアに関連付けられたコンピュータ読み取り可能な記憶媒体、例えば、読み出し専用メモリ、磁気ディスク、光ディスクなどに記憶されてもよい。

当業者であれば、上記の実施形態の説明は、例示に過ぎず、本発明の実施形態の開示範囲（請求項を含む）がこれらの例に限定されることを示唆するものではないこと、また、本発明の実施形態の思想の下で、上記の実施形態または異なる実施形態の技術的特徴の間で組み合わせることも可能であること、および、本発明の実施形態の上記の異なる態様に対する多くの他の変更が、簡潔さのために詳細に提供されないことを理解されたい。したがって、本発明の精神と原則内において、任意の省略、修正、均等物、改良等が本発明の実施形態の保護範囲に含まれる。

Claims

深層学習大規模モデル訓練の方法であって、各トポロジ層においては、
テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するステップと、
前記テンソルを前記配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定するステップと、
現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するステップと、
現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するステップと、
を実行することを含むことを特徴とする、方法。
位置に異常が現れたテンソルを補正するステップは、
ＧＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、
ＧＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定するステップと、
ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送するステップと、
を含むことを特徴とする、請求項１に記載の方法。
ＧＰＵに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えるか否かを判定するステップと、
前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするステップと、
をさらに含むことを特徴とする、請求項２に記載の方法。
前記トポロジ層における演算を再割り当てするステップは、
新たなトポロジ層を作成し、元のトポロジ層におけるＧＰＵのメモリ容量を超える演算と、次のトポロジ層におけるＧＰＵのメモリ容量を超える前記の演算に関連しない演算とを、前記新たなトポロジ層に移送するステップを含むことを特徴とする、請求項３に記載の方法。
深層学習大規模モデル訓練のシステムであって、
テンソルが要求されるトポロジ層のシリーズ番号に従って前記テンソルを昇順で配列するように構成される順序付けモジュールと、
前記テンソルを前記配列に従って順次ＧＰＵに移送し、現在ＧＰＵに移送されたテンソルの総和が閾値を超えるか否かを判定するように構成される第１の判定モジュールと、
現在ＧＰＵに移送されたテンソルの総和が閾値を超えることに応答して、超える部分をＣＰＵに移送し、現在のトポロジ層が最後のトポロジ層であるか否かを判定するように構成される第２の判定モジュールと、
現在のトポロジ層が最後のトポロジ層であることに応答して、位置に異常が現れたテンソルを補正するように構成される補正モジュールと、
を含むことを特徴とする、システム。
前記補正モジュールは、
ＧＰＵに位置的に異常なテンソルが存在するか否かを判定し、
ＧＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルを削除し、ＣＰＵに位置的に異常なテンソルが存在するか否かを判定し、
ＣＰＵに位置的に異常なテンソルが存在することに応答して、前記テンソルをＧＰＵに移送するようにさらに構成されることを特徴とする、請求項５に記載のシステム。
ＧＰＵに位置的に異常なテンソルが存在しないことに応答して、前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えるか否かを判定し、
前記トポロジ層に必要なメモリがＧＰＵのメモリ容量を超えることに応答して、前記トポロジ層における演算を再割り当てするように構成される第３の判定モジュールをさらに含むことを特徴とする、請求項６に記載のシステム。
前記第３の判定モジュールは、
新たなトポロジ層を作成し、元のトポロジ層におけるＧＰＵのメモリ容量を超える演算と、次のトポロジ層におけるＧＰＵのメモリ容量を超える前記の演算に関連しない演算とを前記新たなトポロジ層に移送するようにさらに構成されることを特徴とする、請求項７に記載のシステム。
少なくとも１つのプロセッサと、記憶装置とを含むコンピュータ装置であって、
前記記憶装置には、前記プロセッサ上で実行可能なコンピュータ読み取り可能な命令が記憶され、前記命令は、前記プロセッサによって実行されると、請求項１から４のいずれか一項に記載の方法のステップを実施することを特徴とする、装置。
コンピュータプログラムが記憶されている記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１から４のいずれか一項に記載の方法のステップを実施することを特徴とする、記憶媒体。