JP7623398B2

JP7623398B2 - メモリ要件が低減されたデュアルモーメンタム勾配最適化

Info

Publication number: JP7623398B2
Application number: JP2022561510A
Authority: JP
Inventors: シー，ジンウェン; プディペディ，バラドワージ; トレンブレイ，マーク
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-04-17
Filing date: 2021-02-09
Publication date: 2025-01-28
Anticipated expiration: 2041-02-09
Also published as: US20210326711A1; EP4136587A1; KR102856047B1; US11651228B2; JP2023521975A; KR20230006815A; WO2021211193A1; US20230244945A1; CN115398449A

Description

本願発明の一実施例は、例えば、メモリ要件が低減されたデュアルモーメンタム勾配最適化に関する。

[0001]ニューラルネットワークモデルを含む訓練されたモデルは、読解、言語翻訳、画像認識、または音声認識などの複雑なタスクを実行するために使用される。自然言語処理（ＮＬＰ）、回帰型ニューラルネットワーク（ＲＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、長短期記憶（ＬＳＴＭ）ニューラルネットワーク、またはゲート回帰ユニット（ＧＲＵ）に基づくものなどの機械学習サービスは、そのような複雑なタスクを実行するために展開されている。これらのタイプのモデルは様々なアーキテクチャおよび手法を用いて訓練されているが、訓練を行うための基盤となるアーキテクチャおよび手法には引き続き改良が求められている。

[0002]一例において、本開示は、勾配オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法に関し、Ｌは１より大きい整数である。本方法は、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットをメモリから取り出すステップと、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットをメモリから取り出すステップと、を含んでもよい。本方法は、選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、をさらに含んでもよい。本方法は、勾配オプティマイザを用いて、モーメンタム値の第３のセットおよびモーメンタム値の第４のセットを使用して勾配最適化を実行するステップをさらに含み得る。

[0003]別の例では、本開示は、勾配オプティマイザを含むシステムに関する。システムは、Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリを含んでもよく、Ｌは１より大きい整数である。本システムは、（１）選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットをメモリから取り出し、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットをメモリから取り出し、（２）選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換し、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換し、（３）勾配オプティマイザを使用して、モーメンタム値の第３のセットとモーメンタム値の第４のセットを用いて勾配最適化を実行する、ように構成されてもよい。

[0004]さらに別の例では、本開示は、勾配オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連する重みおよびモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法に関し、Ｌは１より大きい整数である。本方法は、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応するモーメンタム値の第１のセットをメモリから取り出すステップと、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応するモーメンタム値の第２のセットをメモリから取り出すステップと、をさらに含んでもよい。本方法は、選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、をさらに含んでもよい。本方法は、勾配オプティマイザを用いて、モーメンタム値の第３のセットおよびモーメンタム値の第４のセットを使用して勾配最適化を実行するステップをさらに含んでもよい。本方法は、勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成するステップをさらに含んでもよい。本方法は、符号ビットのみを記憶し、モーメンタム値の第５のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の第５のセットを、記憶フォーマットを有するモーメンタム値の第７のセットに変換するステップをさらに含んでもよい。本方法は、符号ビットのみを記憶し、モーメンタム値の第６のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の第６のセットを、記憶フォーマットを有するモーメンタム値の第８のセットに変換するステップをさらに含んでもよい。

[0005]この発明の概要は、詳細な説明において以下でさらに説明される概念の選択を簡略化した形で紹介するために提供される。この発明の概要は、特許請求される主題の重要な特徴または本質的な特徴を特定することを意図しておらず、特許請求される主題の範囲を限定するために使用することも意図していない。

[0006]本開示は、例として説明されており、添付の図によって限定されるものではなく、その中で、同様の参照は同様の要素を示している。図中の要素は、単純化および明確化のために図示されており、必ずしも縮尺通りに描かれていない。

[0007]一実施例によるデュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）を含む人工知能訓練システム（ＡＩＴＳ）を示す図である。 [0008]一実施例によるデュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）を示す図である。 [0009]圧縮されたモーメンタム値が１仮数ビットの切り捨てから２３仮数ビットの切り捨てまで掃引されている重み更新誤差の誤差限界曲線（ＥＢ（Ｍ））を含むグラフである。 [00010]訓練の精度に対する低減された精度のモーメンタム値の効果を示すシミュレーションされた収束曲線を有するグラフ４００を示す図である。 [00011]一実施例による、ハードウェア支援勾配オプティマイザ（ＨＡＧＯ）を含む訓練システムを示す図である。 [00012]一実施例による、デュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）を含むハードウェア支援勾配オプティマイザ（ＨＡＧＯ）のブロック図である。 [00013]一実施例による、図６のＨＡＧＯに関連するタイミング図を示す。 [00014]他の実施例による勾配最適化システムを示す図である。 [00015]一実施例によるデュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）のための方法のフロー図である。 [00016]一実施例によるデュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）のための他の方法のフロー図である。

[00017]本開示で開示される例は、メモリ要件が低減されたデュアルモーメンタム勾配最適化に関する。特定の例は、より少ないメモリを必要とする、ニューラルネットワークモデルを含むモデルの分散訓練に関する。特定の例の訓練システムでは、各ワーカ（例えば、ＧＰＵ、ＤＳＰ、またはＡＳＩＣアクセラレータ）は、訓練データのサブセット（例えば、ミニバッチ）を取り、勾配を計算し、これは、さらに平均化／低減されてモデルのパラメータ（例えば、重さ）を更新する。重みの更新は、勾配を計算するバックプロパゲーションのステップの後に適用される。一例として、ネットワーク（またはネットワークの一部）の重みに関する損失関数の勾配が計算される。そして、その勾配を最適化手法に与え、勾配を利用して、損失関数を最小化するように重みを更新する。バックプロパゲーションの目標は、実際の出力を目標出力に近づけるようにネットワーク内の各重み（または少なくとも重みの一部）を更新し、それによって各出力ニューロンおよびネットワーク全体としての誤差を最小にすることである。

[00018]特定の例では、訓練されたモデルは、クラウドコンピューティング環境に展開することができる。クラウドコンピューティングは、構成可能なコンピューティングリソースの共有プールへのオンデマンドネットワークアクセスを可能にするためのモデルを指す場合がある。例えば、クラウドコンピューティングは、構成可能なコンピューティングリソースの共有プールへのユビキタスかつ便利なオンデマンドアクセスを提供するために市場で採用され得る。構成可能なコンピューティングリソースの共有プールは、仮想化によって迅速にプロビジョニングされ、管理作業またはサービスプロバイダとのやりとりが少ない状態でリリースされ、その後適宜スケーリングされる。クラウドコンピューティングモデルは、例えば、オンデマンドセルフサービス、幅広いネットワークアクセス、リソースプーリング、迅速な弾力性、測定サービスなど、様々な特性で構成することができる。クラウドコンピューティングモデルは、例えば、ハードウェア・アズ・ア・サービス（「ＨａａＳ」）、ソフトウェア・アズ・ア・サービス（「ＳａａＳ」）、プラットフォーム・アズ・ア・サービス（「ＰａａＳ」）、インフラストラクチャ・アズ・ア・サービス（「ＩａａＳ」）などの様々なサービスモデルの公開に使用され得る。クラウドコンピューティングモデルは、プライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウドなどの異なる展開モデルを用いて展開することもできる。

[00019]回帰ニューラルネットワーク（ＲＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、長短期記憶（ＬＳＴＭ）ニューラルネットワーク、またはゲート回帰ユニット（ＧＲＵ）に基づくものなどの様々な機械学習サービスは、本開示で説明する例を使用して実装され得る。一例では、単語、文章、画像、動画、または他のそのようなコンテンツ／情報などのサービス関連コンテンツまたは他の情報は、ベクトル表現に変換されてもよい。ベクトル表現は、ＲＮＮ、ＣＮＮ、ＬＳＴＭ、またはＧＲＵなどの技術に対応し得る。一例では、ニューラルネットワークモデルは、多くの層を含んでもよく、各層は、ニューラルネットワークのオフライン訓練を介して得られた係数または定数の形で表される重みの行列またはベクトルとして符号化されてもよい。

[00020]ＬＳＴＭを例にとると、ＬＳＴＭネットワークは、ＲＮＮ層または他のタイプの層の繰り返しのシーケンスを含んでもよい。ＬＳＴＭネットワークの各層は、所定の時間ステップにおける入力、例えば、前の時間ステップからの層の状態を消費してもよく、新しいセットの出力または状態を生成してもよい。ＬＳＴＭを使用する場合、コンテンツの単一のチャンクは、単一のベクトルまたは複数のベクトルに符号化されてもよい。一例として、単語または単語の組み合わせ（例えば、フレーズ、文、または段落）は、単一のベクトルとして符号化されてもよい。各チャンクは、ＬＳＴＭネットワークの個々の層（例えば、特定の時間ステップ）に符号化されてもよい。ＬＳＴＭ層は、以下のような一組の式を用いて記述されてもよい。

ｉ_ｔ＝ρ（Ｗ_ｘｉｘｔ＋Ｗ_ｈｉｈ_ｔ－１＋Ｗ_ｃｉｃ_ｔ－１＋ｂ_ｉ
ｆ_ｔ＝ρ（Ｗ_ｘｆｘ_ｔ＋Ｗ_ｈｆｈ_ｔ－１＋Ｗ_ｃｆｃ_ｔ－１＋ｂ_ｆ）
ｃ_ｔ＝ｆ_ｔｃ_ｔ－１ｉ_ｔｔａｎｈ（Ｗ_ｘｃｘ_ｔ＋Ｗ_ｈｃｈ_ｔ－１＋ｂ_ｃ）
ｏ_ｔ＝ρ（Ｗ_ｘｏｘ_ｔ＋Ｗ_ｈｏｈ_ｔ－１＋Ｗ_ｃｏｃ_ｔ＋ｂ_ｏ）
ｈ_ｔ＝ｏ_ｔｔａｎｈ（ｃ_ｔ）
[00021]この例では、各ＬＳＴＭ層の内部で、入力と隠れ状態は、ベクトル演算（例えば、ドット積、内積、またはベクトル加算）と非線形関数（例えば、シグモイド、双曲線、および接線）の組み合わせを使用して処理され得る。ある場合には、最も計算集約的な演算は、密な行列－ベクトルおよび行列－行列の乗算ルーチンを使用して実装され得る、ドット積から生じる可能性がある。一実施例では、ベクトル演算および非線形関数の処理は、並列に実行されてもよい。

[00022]勾配オプティマイザは、人工知能に使用される訓練システムにおける重要な構成要素の１つである。勾配オプティマイザは、次の反復の予測をグランドトゥルースに近づけることができるように、モデルのパラメータ（重み）上の勾配を適用してモデルを更新するように設計されている。本開示の特定の例は、２つの単精度（ＦＰ３２）モーメンタムがモデルパラメータと共にバッファリングされるデュアルモーメンタム勾配オプティマイザをサポートするＡＩ訓練フレームワークに関する。各更新ステップは、新しいモーメンタム値を計算し、それは、次に、新しい重みを生成するために使用される。新しいモーメンタム値と新しい重みの両方は、次の反復のために保存される。例として、デュアルモーメンタム適応型モーメント推定（Ａｄａｍ）アルゴリズムは、以下の式で表すことができる。

ｖ_ｔ：＝β_１・ｖ_ｔ＋（１－β_１）・ｄｗ
ｓ_ｔ：＝β_２・ｓ_ｔ＋（１－β_２）・ｄｗ^２

ここで、ｖ_ｔ，ｓ_ｔは、２つのモーメンタムであり、ｗは、モデル重み、ｄｗは、勾配、ａは、初期学習率であり、εはより良い数値安定性のために微小な値である。
[00023]有利には、デュアルモーメンタムオプティマイザの使用は、ＳＧＤ（確率的勾配降下法）のようなゼロ／シングルモーメンタムオプティマイザよりも速く収束するニューラルネットワークモデルを得ることができる。しかし、デュアルモーメンタムオプティマイザを使用すると、モデル重み以外のモーメンタムをバッファリングするために、ゼロ／シングルモーメンタムオプティマイザが必要とするメモリの少なくとも２倍のメモリが必要になる場合がある。この傾向は、特に数百万から数十億のパラメータを含む大規模なモデルで深刻化する可能性がある。オプティマイザがメモリ制限のあるＧＰＵ／ＡＳＩＣ上で実行される場合、オプティマイザが要求するメモリ領域は、逆に最大バッチサイズを低減させる。一方、オプティマイザをホストＣＰＵに移すことで、メモリサイズのボトルネックは解消され得る。しかし、メモリ帯域幅のボトルネックは、プロセッサが重み／勾配ペアごとにメモリから２つのＦＰ３２モーメンタムを余分にフェッチし、それらを記憶する必要があるので、オプティマイザの速度を低下させる可能性がある。

[00024]さらに、Ｔｒａｎｓｆｏｒｍｅｒによる双方向のエンコード表現（ＢＥＲＴ）－ラージモデルのようなモデルが、ワーカごとに生成される勾配の１．３６ギガバイト（ＧＢｓ）有することを考えると、モデル全体の勾配のバッファリングは非常に大きな量のメモリを必要とする。このモデルの文脈では、４ワーカの訓練クラスタで勾配をバッファリングするために５．４４ＧＢのメモリが必要である。メモリの必要量は、ワーカの数に応じて直線的に増加する。さらに、アダプティブモーメント推定（Ａｄａｍ）のような、勾配ごとに２つの浮動小数点３２ビット（ＦＰ３２）モーメンタム項のバッファリングを必要とするアルゴリズムと併用する場合、各ワーカのメモリ要件は、ＢＥＲＴに必要なメモリの３倍となる可能性がある。

[00025]図１は、一実施例によるデュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）１５０を含む人工知能訓練システム（ＡＩＴＳ）１００を示す図である。ＡＩＴＳ１００は、メモリ１１０（例えば、ＤＲＡＭまたは別のタイプのメモリ）、メモリインターフェース１２０（例えば、ＤＤＲインターフェースまたは別のタイプのインターフェース）、モーメンタムフォーマットコンバータ（ＭＦＣ）１３０、別のモーメンタムフォーマットコンバータ（ＭＦＣ）１４０、およびＤＭＧＯ１５０を含んでもよい。メモリ１１０は、バス１１２を介してメモリインターフェース１２０に結合されてもよい。あるいは、メモリ１１０は、チップオンチップパッケージ、システムインチップパッケージ、３Ｄ－メモリシステム、スタックダイシステムを介してメモリインターフェース１２０と一体化されてもよい。メモリインターフェース１２０は、モデル重み（Ｗ）がメモリバス１２２を介してメモリ１１０からＤＭＧＯ１５０に転送され得るように、バス１２２を介してＤＭＧＯ１５０に結合されてもよい。メモリインターフェース１２０は、バス１３２および１３４を介してＭＦＣ１３０に結合されてもよい。バス１３２は、第１のモーメンタムに関連する記憶フォーマット（例えば、ｖｔ＿ｆｐ８フォーマット）のモーメンタム値をメモリ１１０からＭＦＣ１３０に転送するために用いられ得る。バス１３４は、第２のモーメンタムに関連する記憶フォーマット（例えば、ｓｔ＿ｆｐ８フォーマット）のモーメンタム値をメモリ１１０からＭＦＣ１３０に転送するために使用され得る。一例において、記憶フォーマットは、モーメンタム値のための８ビット縮小精度フォーマットに対応してもよい。ＭＦＣ１３０は、第１のモーメンタム値および第２のモーメンタム値の両方を処理して、それらのフォーマットを記憶フォーマットからＤＭＧＯ１５０に関連付けられた訓練フォーマットに変更するように構成されてもよい。一例では、訓練フォーマットは、完全な３２ビット単精度フォーマットに対応してもよい。ＭＦＣ１３０は、バス１３６およびバス１３８をそれぞれ介して、第１および第２のモーメンタム値をＤＧＯ１５０に送信するようにさらに構成されてもよい。この例では、ＭＦＣ１４０は、バス１４２および１４４を介してＤＭＧＯ１５０に結合されてもよい。ＭＦＣ１４０は、バス１４６および１４８を介してメモリインターフェース１１０にさらに結合されてもよい。ＭＦＣ１４０は、訓練フォーマットから記憶フォーマットにモーメンタム値を変換してもよい。

[00026]さらに図１を参照すると、ＡＩＴＳ１００は、性能劣化を導入することなく、Ａｄａｍのために低減された精度のモーメンタムを使用する新しい方法の実装を可能にすることができる。一例として、デュアルモーメンタムＡｄａｍアルゴリズムは、以下の式で表すことができる。

ここで、ｖ_ｔ，ｓ_ｔは、２つのモーメンタムであり、ｗは、モデル重み、ｄｗは、勾配、ａは、初期学習率であり、εはより良い数値安定性のために微小な値である。一例では、モーメンタム値の１つ（ｖ_ｔ）は勾配値の期待値に対応し、モーメンタム値の他の１つ（ｓ_ｔ）は勾配値の分散の期待値に対応し得る。この例では、完全な３２ビットの単精度のモーメンタムを使うのではなく、８ビットだけを使っている。符号に１ビット、モーメンタム｛ｖ_ｔ，ｓ_ｔ｝のダイナミックレンジに７ビットである。この例では、ｖ_ｔ，ｓ_ｔともに（１－β）との乗算により１．０より小さく、ここで、βは１．０に近い値なので、８ビット指数の最上位ビット（ＭＳＢ）はゼロ定数となり、保存前に安全に破棄することができる。この例では、モーメンタム値の記憶フォーマットは８ビットであるが、計算フォーマットはより高精度を実現するために、やはりより高精度である。図１は、ある方法で配置された、ある数の構成要素を含むＡＩＴＳ１００を示しているが、ＡＩＴＳ１００は、異なる方法で配置された追加のまたはより少ない構成要素を含んでもよい。一例として、ＭＦＣ１３０およびＭＦＣ１４０は、チップオンチップパッケージ、システムインチップパッケージ、３Ｄ－メモリシステム、スタックダイシステムを介してＤＭＧＯ１５０と統合されてもよい。あるいは、ＭＦＣ１３０およびＭＦＣ１４０は、（例えば、システムオンチップ（ＳｏＣ）として）同一チップ上でＤＭＧＯ１５０と統合されてもよい。別の例では、メモリ１１０、メモリインターフェース１２０、ＭＦＣ１３０、ＭＦＣ１４０、およびＤＭＧＯ１５０の各々は、チップオンチップパッケージ、システムインチップパッケージ、３Ｄ－メモリシステム、スタックダイシステムを介して統合されてもよい。

[00027]図２は、一実施例によるデュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）２００を示す図である。ＤＭＧＯ２００は、モーメンタム伸長器２０２および別のモーメンタム伸長器２０４を含んでもよい。ＤＭＧＯ２００は、さらに、モーメンタム圧縮器２６２と別のモーメンタム圧縮器２６４を含んでもよい。ＤＭＧＯ２００は、デュアルモーメンタム・アダプティブモーメント推定（Ａｄａｍ）アルゴリズムの実装に関連する様々な動作を実行するように構成されたロジックをさらに含んでもよい。この例では、モーメンタム伸長器２０２およびモーメンタム伸長器２０４は、図１のＭＦＣ１３０に関して前述したのと同様の機能を提供するために使用され得る。同様に、モーメンタム圧縮器２６２およびモーメンタム圧縮器２６４は、図１のＭＦＣ１４０に関して前述したのと同様の機能を実装するために使用され得る。第１のモーメンタム（例えば、ｖｔ＿ｆｐ８）に関連するモーメンタム値は、メモリから取得され、モーメンタム伸長器２０２に提供されてもよい。第２のモーメンタム（例えば、ｓｔ＿ｆｐ８）に関連するモーメンタム値は、メモリから取得され、モーメンタム伸長器２０４に提供されてもよい。一例では、モーメンタム値は、記憶フォーマット（例えば、８ビット縮小精度フォーマット）を有してもよい。モーメンタム伸長器２０２は、第１のモーメンタム値を処理して、そのフォーマットを記憶フォーマットからＤＭＧＯ２００に関連する訓練フォーマットに変更するように構成されてもよい。モーメンタム伸長器２０４は、第２のモーメンタム値を処理して、そのフォーマットを記憶フォーマットからＤＭＧＯ２００に関連付けられた訓練フォーマットに変更するように構成されてもよい。

[00028]図２を引き続き参照すると、ＤＭＧＯ２００の一部として含まれるロジックは、加算、乗算、および融合型乗算加算演算などの演算を実行するように構成されたロジックを含んでもよい。ロジックは、デュアルモーメンタム最適化アルゴリズム（例えば、デュアルモーメンタム・アダプティブモーメント推定（Ａｄａｍ）アルゴリズム）を実装するように構成されてもよい。一例として、新しいモーメンタム値（ｖ_{ｔ＿ｎｅｗ}，ｓ_{ｔ＿ｎｅｗ}）の計算に関するデュアルモーメンタムＡｄａｍアルゴリズムに対応する計算は、以下の式で表すことができる。

ｖ_{ｔ＿ｎｅｗ}：＝β_１・ｖ_{ｔ＿ｆｐ３２}＋（１－β_１）・ｄｗ
ｓ_{ｔ＿ｎｅｗ}：＝β_２・ｓ_{ｔ＿ｆｐ３２}＋（１－β_２）・ｄｗ^２

ここで、ｖ_{ｔ＿ｎｅｗ}，ｓ_{ｔ＿ｎｅｗ}は、新しいモーメンタム値、ｗはモデル重み、ｄｗは勾配、ａは初期学習率、εはより良い数値安定性のために使用される微小な値である。したがって、この例では、モーメンタム伸長器２０２および２０４は、それぞれのモーメンタム値（ｖ_{ｔ＿ｆｐ８}，ｓ_{ｔ＿ｆｐ８}）の記憶フォーマット（例えば、８ビット圧縮フォーマット）を、ＤＭＧＯ２００に関連する訓練フォーマット（例えば、３２ビット全精度フォーマット）へ変換する。一例として、勾配最適化が実行される前に、モーメンタム伸長器（例えば、モーメンタム伸長器２０２または２０４）は、符号ビットと指数の最上位ビット（ＭＳＢ）との間に１つの「０」ビットを挿入し、指数の最下位ビット（ＬＳＢ）の直後に２３の「０」ビットをパディングすることによって、圧縮された８ビットモーメンタム値を３２ビット単精度に戻すように変換するであろう。パディングされるビットは「０」ビットである必要はない。一例では、少なくとも少数のビットが非ゼロビットであってもよい。一例として、２つまたは３つのＬＳＢは非ゼロビットであってよい。

[00029]さらに図２を参照すると、乗算器２１０および２１４ならびに加算器２１２を含むＤＭＧＯ２００に関連するロジックは、新しいモーメンタム値（ｖ_{ｔ＿ｎｅｗ}）のうちの１つを生成することに関連する計算を実行してもよい。同様に、乗算器２１６、２１８、および加算器２２２を含むＤＭＧＯ２００に関連するロジックは、他の新しいモーメンタム値（ｓ_{ｔ＿ｎｅｗ}）を生成することに関連する計算を実行してもよい。さらに、この例では、新しいモーメンタム値（ｖ_{ｔ＿ｎｅｗ}，ｓ_{ｔ＿ｎｅｗ}）をメモリに記憶する前に、モーメンタム圧縮器２６２および２６４は、新しいモーメンタム値のフォーマットを訓練フォーマットから記憶フォーマットに変換する。新しいモーメンタム値（ｖ_{ｔｃ＿ｎｅｗ}，ｓ_{ｔｃ＿ｎｅｗ}）は、図２において８ビット記憶フォーマット値として示されている。この例では、モーメンタム圧縮器２６２および２６４の各々は、モーメンタム値に関連する指数の最上位ビット（ＭＳＢ）を除去し、２３の仮数ビットのすべてを切り捨てて、３２ビット全精度のモーメンタム値（ｖ_{ｔ＿ｎｅｗ}，ｓ_{ｔ＿ｎｅｗ}）を８ビット圧縮モーメンタム値（ｖ_{ｔｃ＿ｎｅｗ}，ｓ_{ｔｃ＿ｎｅｗ}）に変換するように構成してもよい。これらはメモリに記憶されることになる。また、２３ビット未満の仮数ビットを切り捨ててもよい。有利には、モーメンタム値の圧縮により、モーメンタム値を記憶するために必要なバッファサイズを４倍縮小することができる。さらに、最下位ビット（ＬＳＢ）切り捨ての使用は、誤差が互いにキャンセルされ得るように同じ丸め誤差方向を導入することによって、訓練性能の損失なしに精度を低下させることができる。

[00030]引き続き図２を参照すると、ＤＭＧＯ２００は、新しい重み値（例えば、ｗ_＿ｎｅｗ）を生成するように構成されたロジックをさらに含んでもよい。この例では、このロジックは、乗算器２３２および２３４、加算器２４２、逆数平方根（ＲＳＱＲＴ）２４６、および融合型乗算器（ＦＭＡ）２５０を含んでもよい。図２は、ある方法で配置されたある数の構成要素を含むＤＭＧＯ２００を示すが、ＤＭＧＯ２００は、異なる方法で配置された追加のまたはより少ない構成要素を含んでもよい。

[00031]モーメンタム圧縮器によってモーメンタムが圧縮されるとき、その精密ビットは、新しいモーメンタム値（例えば、それぞれ、ｖ_{ｔｃ＿ｎｅｗ}，ｓ_{ｔｃ＿ｎｅｗ}）に関してδ_１およびδ_２の相対誤差を導入するように切り捨てられる。これを考慮すると、勾配最適化方程式は次のように書き直すことができる。

３２ビット単精度の場合、｜δ_１｜≦２^ｍ－２４，｜δ_２｜≦２^ｍ－２４となり、ｍは切り捨てた精度ビット数である。この例では、ｍが大きすぎなければ、１－δ_１＝１－δ_２≒１－δを安全に近似できる。この誤差限界は、切り捨てられたｍビットがすべて「１」である場合にのみ達成され、このケースは実際のアプリケーションではほとんど起こり得ない。それでも、この極端なケースが起こったとしても、瞬間的なピーク誤差は全体の性能に悪影響を及ぼし得ない。両モーメンタムを切り捨てた後の更新された重みの相対誤差は、

と表すことができる。どのようなδ∈［０，１］でも、δの値が小さいと

は１－δよりも１に近くなる。このことは、両モーメンタムの精度を下げても、更新されたパラメータの精度は線形には下がらないことを示している。この「誤差に対する平方根」の効果は、切り捨てによる「精度損失」の一部を補償する。

[00032]図３は、圧縮されたモーメンタム値が仮数１ビットの切り捨てから仮数２３ビットの切り捨てまで掃引されている状態での重み更新誤差の誤差限界曲線（ＥＢ（Ｍ））を示すグラフ３００である。グラフ３００に示すように、この例では、切り捨てられた仮数ビットの数が１６より少ない場合、完全な単精度（ＦＰ３２）モーメンタム値と比較して、誤差限界値はゼロに近い。この例では、切り捨てられた仮数ビットの数が１７を超えると、誤差限界は急速に増加し、仮数ビットのすべてが切り捨てられたときに、最大誤差限界は０．１３である。

[00033]図４は、精度を下げたモーメンタム値が訓練の精度に及ぼす影響を示すシミュレーション収束曲線４１０、４２０、および４２０を有するグラフ４００を示す。一例として、シミュレーション収束曲線４１０はモーメンタム値の１ビット仮数に対応し、シミュレーション収束曲線４２０はモーメンタム値の４ビット仮数に対応し、シミュレーション収束曲線４３０はモーメンタム値の２４ビット仮数に対応する。シミュレーション収束曲線から明らかなように、モーメンタム値の仮数ビットの切り捨ては、訓練の精度に関して性能を低下させない。しかし、精度を下げたモーメンタム値はメモリフットプリントの少なくとも５０％を節約するので、メモリを読み出すためのサイクルの半分だけが必要となる場合がある。

[00034]本開示の一部として説明された技術は、ハードウェアおよび／またはソフトウェアの組み合わせを使用して実装されてもよい。特定の例では、図２のＤＧＭＯ２００は、図５に示されるような訓練システム５００の一部として展開されてもよい。この例では、ＤＧＭＯ２００は、一例にしたがって、モデルを訓練するための、ハードウェア支援勾配オプティマイザ（デュアルモーメンタム）５５０（ＨＡＧＯと呼ばれる）の一部として含まれてもよい。勾配最適化システム５００は、ＨＡＧＯ５５０に高速バスブリッジ５２０を介して結合された複数のワーカ（例えば、ワーカ＿１５０２、ワーカ＿２５０４、およびワーカ＿Ｎ５０６）を含んでもよい。ワーカ（例えば、ワーカ＿１５０２、ワーカ＿２５０４、およびワーカ＿Ｎ５０６）の各々は、任意の数のグラフィックス処理ユニット（ＧＰＵ）、コンピュータ処理ユニット（ＣＰＵ）、メモリ（例えば。ＳＲＡＭまたは他のタイプのメモリ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、消去可能および／または複合プログラマブル論理デバイス（ＰＬＤ）、プログラマブルアレイロジック（ＰＡＬ）デバイス、または汎用アレイロジック（ＧＡＬ）デバイスを使用して実装されてもよい。各ワーカは、勾配最適化システム５００を使用して訓練されているニューラルネットワークモデルの全体コピーを担持してもよい。各ワーカは、ニューラルネットワークモデルのコピー全体を担持してもよいが、各ワーカは、モデルに関連付けられた訓練データ（例えば、分類用の画像または他のデータサンプル）のサブセットに対してのみ動作してもよい。各ワーカは、データに対してフォワードパスを実行して誤差を計算し、その後、バックワードパスを実行して各パラメータ（例えば、各重み）に対する勾配を計算してもよい。勾配最適化システム５００は、高速バスブリッジ５２０にバス５２８を介して結合されたホスト５６０をさらに含んでもよい。

[00035]図５を引き続き参照すると、一例では、高速バスブリッジ５２０は、ピーシーアイエクスプレス（ＰＣＩｅ）ブリッジとして実装されてもよい。ワーカ＿１５０２は、ＰＣＩｅリンク５１０を介して高速バスブリッジ５２０に接続されてもよい。ワーカ＿２５０４は、ＰＣＩｅリンク５１２を介して高速バスブリッジ５２０に接続されてもよい。ワーカ＿Ｎ５０６は、ＰＣＩｅリンク５１４を介して高速バスブリッジ５２０に接続されてもよい。ＨＡＧＯ５５０は、バスリンク５２２および５２４を介して高速バスブリッジ５２０に連結されてもよい。また、他のタイプのバスブリッジおよびバスリンクが使用され得る。さらに、バスブリッジの代わりに、スイッチングファブリックが使用され得る。各ワーカは、訓練データのサブセット（例えば、ミニバッチ）上で勾配を計算し、高速バスブリッジ５２０を介して更新された勾配をＨＡＧＯ５５０に提供してもよい。ＨＡＧＯ５５０は、各ワーカ（例えば、ワーカ＿１５０２、ワーカ＿２５０４、およびワーカ＿Ｎ５０６）から収集した勾配に対して、縮小および最適化を実行してもよい。ＨＡＧＯ５５０は、データバーストで動作してもよく、一例では、各バーストは、一定数の受信勾配で構成されてもよい。現在の勾配バーストは、前の勾配バーストがその対応する重みと共に最適化される間、バッファリングされてもよい。図５は、ある方法で配置された、ある数の構成要素を含む勾配最適化システム５００を示すが、勾配最適化システム５００は、異なる方法で配置された追加のまたはより少ない構成要素を含んでもよい。

[00036]図６は、一実施例による、デュアルモーメンタム勾配オプティマイザを含むＨＡＧＯ６００のブロック図である。一実施例では、図５のＨＡＧＯ５５０は、図６のＨＡＧＯ６００として実装されてもよい。ＨＡＧＯ６００は、高速バスを介してワーカから更新された勾配を受信してもよい。図６の例では、ＨＡＧＯ６００に４つのワーカが結合されていることを想定している。ワーカの１つからの更新された勾配（ＤＷ１）は、先入れ先出しブロック（例えば、ＧＦＩＦＯ＿１６０２）を介して受信されてもよい。別のワーカからの更新された勾配（ＤＷ２）は、別の先入れ先出しブロック（例えば、ＧＦＩＦＯ＿２６０４）を介して受信されてもよい。別のワーカからの更新された勾配（ＤＷ３）は、別の先入れ先出しブロック（例えば、ＧＦＩＦＯ＿３６０６）を介して受信されてもよい。別のワーカからの更新された勾配（ＤＷ４）は、別の先入れ先出しブロック（例えば、ＧＦＩＦＯ＿４６０８）を介して受信されてもよい。ＦＩＦＯは、単一のマルチエントリーＦＩＦＯまたは複数のシングルエントリーＦＩＦＯとして実装されてもよい。

[00037]図６を引き続き参照すると、ＨＡＧＯ６００は、浮動小数点平均化ブロック（例えば、ＦＰ－ＡＶＧブロック６２０）をさらに含んでもよい。ＦＰ－ＡＶＧブロック６２０は、先入れ先出しブロックからバッファリングされた更新された勾配を受信してもよい。一例として、ＦＰ－ＡＶＧブロック６２０は、ＧＦＩＦＯ＿１６０２からバッファリングされた更新された勾配（ＢＤＷ１）を受信してもよい。ＦＰ－ＡＶＧブロック６２０はまた、ＧＦＩＦＯ＿２６０４からバッファリングされた更新された勾配（ＢＤＷ２）を受信してもよい。ＦＰ－ＡＶＧブロック６２０はまた、ＧＦＩＦＯ＿３６０６からバッファリングされた更新された勾配（ＢＤＷ３）を受信してもよい。ＦＰ－ＡＶＧブロック６２０はまた、ＧＦＩＦＯ＿４６０８からバッファリングされた更新された勾配（ＢＤＷ４）を受信してもよい。ＦＰ－ＡＶＧブロック６２０は、受信した更新された勾配に対して縮小を実行してもよい。この例では、縮小操作は、受信した勾配を平均化し、出力としてＤＷ＿ＡＶＧを生成することを含んでもよい。縮小操作は、平均化に限定されない。加算やスケーリングされた加算など、他の演算を使用して縮小を実行してもよい。ＦＰ－ＡＶＧブロック６２０からの出力は、図１および図２に関して先に説明したものなどの勾配最適化アルゴリズムを実装するために浮動小数点演算を行う勾配最適化データパス（ＧＯＤＰ）ブロック６５０に提供されてもよい。一例では、ＦＰ－ＡＶＧブロック６２０およびＧＯＤＰブロック６５０は、ＦＰＧＡの一部として実装されてもよい。

[00038]さらに図６を参照すると、重み（Ｗ）およびオプションのモーメンタム（Ｍ）のマスターコピーは、メモリ６６０に記憶されてもよい。一例では、メモリ６６０は、ダブルデータレート（ＤＤＲ）ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）を使用して実装されてもよい。メモリ６６０は、メモリインターフェース６６２を介して、先入れ先出しブロック（例えば、ＰＦＩＦＯブロック６７０）に結合されてもよい。メモリインターフェース６６２は、ＤＤＲインターフェースであってもよい。図６に示すように、モデルの重み（Ｗ）は、制御有限状態マシン（ＦＳＭ）（例えば、制御ＦＳＭ６４０）の制御下で、ＰＦＩＦＯ６７０にロードされてもよい。さらに、メモリ６６０は、メモリインターフェース６６２を介してモーメンタムフォーマット変換器（ＭＦＣ）６８４に結合されてもよい。ＭＦＣ６８４は、図１のＭＦＣ１３０に関して先に説明したのと同様の機能性を提供してもよい。ＭＦＣ６８４の出力は、ＰＦＩＦＯ６７０（または別のＦＩＦＯ）に結合されてもよい。

[00039]一例では、同時に、制御ＦＳＭ６４０は、（１）各ワーカがそれぞれのローカルに計算された勾配（例えば、ＤＷ１、ＤＷ２、ＤＷ３、およびＤＷ４）をそれぞれのＧＦＩＦＯ（例えば、ＧＦＩＦＯ＿１６０２、ＧＦＩＦＯ＿２６０４、ＧＦＩＦＯ＿３６０６、およびＧＦＩＦＯ＿４６０８）に送信すること、および（２）メモリインターフェース６６２が、メモリ６６０からＰＦＩＦＯ６７０へ、オプションのモーメンタムとともに、同じ数のパラメータ（例えば、重み（Ｗ））をフェッチすること、の両方を可能にする。したがって、この例では、制御ＦＳＭ６４０は、単一のバーストサイクル中にＧＦＩＦＯに注入される勾配の数と同じ数の重みをＰＦＩＦＯ６７０にフェッチするようにメモリインターフェース６６２を制御する。これらのＦＩＦＯのそれぞれがバーストサイズに達すると、これらのそれぞれの読み取りポートが制御ＦＳＭ６４０によって起動され、それぞれのＦＩＦＯの内容を単一サイクルのレイテンシで出力する。この例では、制御ＦＳＭ６４０は、これらのバッファからのデータが同じレイテンシでフラッシュされるように、ＰＦＩＦＯ６７０およびＧＦＩＦＯからの重みの読み出しを可能にする。このように、データの読み出しは完全に調整される。

[00040]図６を引き続き参照すると、この実装態様は、それぞれのＦＩＦＯからの４つの勾配出力（例えば、ＢＤＷ１、ＢＤＷ２、ＢＤＷ３、およびＢＤＷ４）が同じ位置合わせインデックスを有することを確実にする。ＦＰ－ＡＶＧブロック６２０は、次に、これらの勾配（例えば、ＢＤＷ１、ＢＤＷ２、ＢＤＷ３、ＢＤＷ４）の平均を計算して、縮小勾配（例えば、ＤＷ＿ＡＶＧ）を生成し、これは次に、ＧＯＤＰブロック６５０によってバッファされた重みおよびモーメンタムとともに処理される。この例では、ＧＯＤＰブロック６５０の出力は、新しい重み（ＮＷ）および新しいモーメンタム（ＮＭ）の２つの部分を含んでもよく、これらは両方ともメモリインターフェース６６２を介してメモリ６６０に書き戻される。新しいモーメンタム値は、図１のＭＦＣ１４０に関して前述したのと同様の機能を実装することができるＭＦＣ６８２に提供されてもよい。したがって、この態様では、圧縮されたモーメンタム値は、より少ない記憶空間を必要とする記憶フォーマットで記憶されてもよい。

[00041]さらに、同時に新しい重み（ＮＷ）が、新しい重みをワーカに送り返す送信ＦＩＦＯ（ＴＸＦＩＦＯ）に注入される。この実施例では、制御ＦＳＭ６４０は、図５の高速バスブリッジ５２０を介したワーカへの重みの流れを制御してもよい。一例として、制御／状態レジスタ６３０は、様々な動作に関連するタイミングを指定するために使用され得る。さらに、制御／状態レジスタ６３０は、勾配オプティマイザのハイパーパラメータ（例えば、学習率）を構成するために使用され得る。

[00042]それぞれのＧＦＩＦＯからの読み出しおよび重みの更新の間、勾配の次のバーストは、それぞれのＧＦＩＦＯに書き込まれる。同様に、次の重みのセットおよびモーメンタムも、ＰＦＩＦＯ６７０からの読み出しおよび重み更新の間、メモリ６６０からＰＦＩＦＯ６７０に（例えば、ＭＦＣ６８４を介して）フェッチされる。この例では、メモリ６６０は、読み出しと書き込みの動作の両方によって共有される単一のデータポートだけをサポートするので、ＰＦＩＦＯ６７０のデータ幅は、各ＧＦＩＦＯのデータ幅の２倍であるように構成される。このようにして、この例では、最初のものと最後のものを除くすべてのデータバーストは、勾配の受信と新しい重みの送信との間にオーバーラップを有することになる。

[00043]さらに図６を参照すると、ＨＡＧＯ６００の動作の特定の態様は、制御ＦＳＭ６４０とともに制御／状態レジスタを使用して制御され得る。以下の表１は、制御／状態レジスタ６３０の例示的な内容を示す。

[00044]表１に示すように、ｃｔｒｌ＿ｏｐｔモードレジスタは、任意のデュアルモーメンタム最適化アルゴリズムであってよい最適化アルゴリズムタイプを指定することを可能にする。ｃｔｒｌ＿バースト＿サイズレジスタは、各バーストサイクルに関連するバーストサイズを選択することができる。この例では、バーストサイズ（例えば、勾配の数で指定される）は、２５６勾配、５１２勾配、１０２４勾配、２０４８勾配、または４０９６勾配であり得る。ｃｔｒｌ＿ｐａｒａｍ＿ｎｕｍレジスタは、モデルのパラメータのサイズを指定することができる。ｃｔｒｌ＿ｉｎｉｔ＿ｌｒレジスタは、モデルの初期学習率を指定することができる。一実施例では、初期学習率は、モデルのステップサイズに関連し得る。先に説明したように、一実施例では、最適化アルゴリズムは、以下の式で表すことができるデュアルモーメンタムアダムアルゴリズムであってもよい。

ここで、ｖ_ｔ，ｓ_ｔは、２つのモーメンタムであり、ｗは、モデル重み、ｄｗは、勾配、ａは、初期学習率であり、εはより良い数値安定性のために微小な値である。ｃｔｒｌ＿ｂｅｔａ１レジスタは、重みが更新される速度に関連する加速度を制御することができるモーメンタムの係数を指定することができる。ｃｔｒｌ＿ｂｅｔａ２レジスタは、重みが更新される速度に関連する加速度をさらに制御することができる第２のモーメンタムの係数を指定することを可能にする。ｃｔｒｌ＿ｉｓ＿ｆｐ１６レジスタは、入力勾配のフォーマットがＦＰ１６フォーマットの場合に設定される。表１は、制御／状態レジスタ６３０の一部として含まれる特定のレジスタのセットを示しているが、追加のまたはより少ないレジスタがＨＡＧＯ６００と共に使用され得る。さらに、制御／状態レジスタ６３０に含まれる制御情報の少なくとも一部または全部は、ＨＡＧＯ６００を用いた勾配最適化に関連する命令に関連するフィールドまたはオペランドを介して指定されてもよい。図６は、ある方法で配置されたある数の構成要素を含むＨＡＧＯ６００を示すが、ＨＡＧＯ６００は、異なる方法で配置された追加のまたはより少ない構成要素を含んでもよい。一例として、５つ以上のワーカがＨＡＧＯ６００に結合されてもよい。

[00045]図７は、一実施例による、図６のＨＡＧＯ６００に関連するタイミング図７００を示す。タイミング図７００は、ＨＡＧＯ６００の動作をバーストの観点で説明する。タイミング図７００は、Ｋ＋１バーストサイクルを示し、ここで、Ｋは正の整数である。最初のバーストサイクル（バースト＿１）および最後のバーストサイクル（バースト＿Ｋ＋１）は、他のバーストサイクル：バースト＿２サイクルからバースト＿Ｋサイクルまで、よりも少ない重複を含む。バースト＿１サイクルは、ワーカからの勾配（例えば、ＤＷ１）の送信開始からＦＩＦＯ（例えば、図６のＧＦＩＦＯ＿１６０２）への勾配の注入までに関わるタイミング（ＧＷ）をＦＩＦＯのバーストサイズまで含んでいる。複数のワーカ（例えば、図５のワーカ＿１５０２、ワーカ＿２５０４、ワーカ＿Ｎ５０６）は、バースト＿１サイクルの間に、ＦＩＦＯのバーストサイズまでＦＩＦＯに勾配を注入することができる。バースト＿１サイクルはさらに、図６のＰＦＩＦＯ６７０への重みの注入までの、メモリ（例えば、図６のメモリ６６０）に記憶されたパラメータ（例えば、モデルの重み）の転送の開始に関与するタイミング（ＰＷ）を含む。図７に示すように、重みの転送は、メモリ（例えば、図６のメモリ６６０）の読み出しレイテンシ（Ｌ_ＤＤＲ）に影響される。したがって、バースト＿１サイクルにおいて、ＨＡＧＯ６００は、ＦＩＦＯへの勾配の注入と、メモリからの重みのフェッチという２つの動作を重複して行う。

[00046]図７を引き続き参照すると、バースト＿２サイクルは、ＦＩＦＯ（例えば、図６のＧＦＩＦＯ＿１６０２）への勾配の注入までのワーカからの勾配の次のセット（例えば、ＤＷ１）の送信開始に関わるタイミング（ＧＷ）をＦＩＦＯのバーストサイズまで含んでいる。複数のワーカ（例えば、図５のワーカ＿１５０２、ワーカ＿２５０４、ワーカ＿Ｎ５０６）は、バースト＿２サイクル中にＦＩＦＯのバーストサイズまで勾配をＦＩＦＯに注入することができる。勾配の次のセットがＦＩＦＯに注入されている間、バースト＿２サイクルは、ＦＰ－ＡＶＧブロック６２０による勾配の平均の計算、およびＧＯＤＰブロック６５０によるバッファされたモーメンタムおよびバッファされた重み（ＢＭ，ＢＷ）と共に縮小勾配の処理、を含む計算サイクルをも含む。この操作の一部として関与するタイミングは、図７においてＧＰＲとしてラベル付けされている。ＧＯＤＰブロック６５０から出力された新しいモーメンタムおよび新しい重み（ＮＭ、ＮＷ）をメモリ６６０に書き戻すことに関与するタイミングは、ＮＰとしてラベル付けされる。バースト＿２サイクルは、さらに、ＴＸＦＩＦＯ６８０を介したワーカへの新しい重みの送信に関与するタイミングを重複して含む。図７のタイミング図７００に示すように、この動作は、ＧＯＤＰブロック６５０の処理レイテンシ（Ｌ_ＤＰ）によって影響を受ける。バースト＿２サイクルはさらに、メモリ（例えば、図６のメモリ６６０）に記憶されたパラメータ（例えば、モデルの重み）の転送の開始から、図６のＰＦＩＦＯ６７０への重みの注入までに関わるタイミング（ＰＷ）を含む。図７に示すように、重みの転送は、メモリ（例えば、図６のメモリ６６０）の読み出しレイテンシ（Ｌ_ＤＤＲ）に影響される。したがって、バースト＿２サイクルにおいて、ＨＡＧＯ６００は、勾配最適化の一部として、（１）ＦＩＦＯ（例えば、ＧＦＩＦＯのいずれか）への勾配の注入、（２）ＧＦＩＦＯおよびＰＦＩＦＯからの勾配および重みの読み出し、（３）メモリへの新しい重みおよび新しいモーメンタムの書き戻し、（４）ワーカに対する重みの転送、の４つの動作を少なくとも部分的にオーバーラップさせている。

[00047]さらに図７を参照すると、制御ＦＳＭ６４０は、連続するバーストサイクルがＨＡＧＯ６００を通る勾配のストリーミングをもたらすように、ストリーミング様式でＨＡＧＯ６００を動作させ続ける。したがって、バースト＿３サイクルは、勾配の追加のストリーミングと、勾配最適化の一部として、（１）ＦＩＦＯ（例えば、ＧＦＩＦＯのいずれか）への勾配の注入、（２）ＧＦＩＦＯおよびＰＦＩＦＯからの勾配および重みの読み出し、（３）メモリへの新しい重みおよび新しいモーメンタムの書き戻し、（４）ワーカに対する新しい重みの転送、の４つの動作の少なくとも部分的なオーバーラップを含む複数の動作のオーバーラップ、を含む。同様に、バースト＿Ｋサイクルは、勾配最適化の一部として、（１）ＦＩＦＯ（例えば、ＧＦＩＦＯのいずれか）への勾配の注入、（２）ＧＦＩＦＯおよびＰＦＩＦＯからの勾配および重みの読み出し、（３）メモリへの新しい重みおよび新しいモーメンタムの書き戻し、（４）ワーカに対する新しい重みの転送、の４つの動作の少なくとも部分的なオーバーラップを含む。バースト＿Ｋ＋１サイクルは最後のバーストサイクルに対応する。したがって、バースト＿Ｋ＋１サイクルは、他のバーストサイクル：バースト＿２サイクルからバースト＿Ｋサイクルまで、に比べてオーバーラップが少ない。バースト＿Ｋ＋１サイクルの一部として、（１）ＧＦＩＦＯおよびＰＦＩＦＯからの勾配と重みの読み出し、（２）新しい重みと新しいモーメンタムのメモリへの書き戻し、（３）新しい重みのワーカへの送信、の３動作がオーバーラップする。

[00048]図７を引き続き参照すると、各単一バーストサイクル中に、ＨＡＧＯ７００は勾配バーストで動作してもよく、各勾配バーストは、固定数の勾配を含んでもよい。単一のバーストサイクル中に動作される勾配の数は、図６に関して先に説明したように、制御／状態レジスタ６３０を介して構成され得るバーストサイズに対応する。

[00049]図８は、別の実施例による、デュアルモーメンタム勾配オプティマイザ（ＤＭＧＯ）のソフトウェアバージョンを含む、勾配最適化システム８００を示す図である。この例では、ＤＭＧＯ（例えば、図２のＤＭＧＯ２００）に対応するロジックの実装は、プロセッサによって実行されるとき、メモリに記憶された命令を使用して実装されてもよい。勾配最適化システム８００は、プロセッサ８０２、Ｉ／Ｏコンポーネント８０４、メモリ８０６、プレゼンテーションコンポーネント８０８、センサ８１０、データベース８１２、ネットワーキングインターフェース８１４、およびＩ／Ｏポート８１６を含み、これらはバス８２０を介して相互接続されても良い。プロセッサ８０２は、メモリ８０６に記憶された命令を実行し得る。Ｉ／Ｏコンポーネント８０４は、キーボード、マウス、音声認識プロセッサ、またはタッチスクリーンなどのコンポーネントを含み得る。メモリ８０６は、不揮発性ストレージまたは揮発性ストレージ（例えば、フラッシュメモリ、ＤＲＡＭ、ＳＲＡＭ、または他のタイプのメモリ）の任意の組み合わせであってよい。ＤＭＧＯに関連する方法に対応する命令は、メモリ８０６または別のメモリに記憶されてもよい。これらの命令は、プロセッサ８０２、または他のプロセッサ（例えば、他のＣＰＵまたはＧＰＵ）によって実行されるとき、これらの方法に関連する機能を提供し得る。一例として、右シフト／左シフト命令およびパッキング／アンパッキング命令を含む命令は、モーメンタム値を圧縮または伸長するために使用され得る。以下の表２は、プロセッサ８０２によって実行されると、ＤＭＧＯ（例えば、図２のＤＭＧＯ２００）に対応する機能性を実行し得る、命令の例示的なセットを示す。

[00050]さらに図８を参照すると、プレゼンテーション構成要素８０８は、ディスプレイ、ホログラフィックデバイス、または他のプレゼンテーションデバイスを含んでもよい。ディスプレイは、ＬＣＤ、ＬＥＤ、または他のタイプのディスプレイのような、任意のタイプのディスプレイであってもよい。データベース８１２は、本明細書に記載される方法の実行のために必要に応じてデータを記憶するために使用され得る。データベース８１２は、分散型データベースの集合体として、または単一データベースとして実装されてもよい。ネットワークインターフェース８１４は、イーサネット、セルラー無線、ブルートゥース（登録商標）無線、ＵＷＢ無線、または他のタイプの無線若しくは有線通信インターフェースなどの通信インターフェースを含んでもよい。Ｉ／Ｏポート８１６は、イーサネットポート、光ファイバーポート、無線ポート、または他の通信ポートを含んでもよい。図８は、ある方法で配置および結合されたある数の構成要素を含むものとして勾配最適化システム８００を示しているが、異なる方法で配置および結合された、より少ないまたは追加の構成要素を含むことができる。さらに、システム８００に関連する機能性は、必要に応じて分散されてもよい。

[00051]図９は、一実施例による勾配最適化のための方法のフロー図９００を示す。この方法は、図１のＡＩＴＳ１００、図２のＤＭＧＯ２００、または図８の勾配最適化システム８００を使用して実行されてもよい。したがって、ＤＭＧＯ２００がＨＡＧＯ６００の一部として実装される場合の例として、制御ＦＳＭ６４０から受信した制御信号に基づいて、この方法に対応するステップが実行されてもよい。さらに、図６には示されていないが、この方法の一部として実行される動作に関連するタイミングを同期させるために、クロック信号が使用され得る。あるいは、メモリ８０６に記憶された命令は、プロセッサ８０２によって実行されるとき、この方法に関連するステップを実行するために使用され得る。さらに、ＤＭＧＯ２００および勾配最適化システム８００の修正された組み合わせも使用され得る。したがって、一例として、モーメンタム圧縮および伸長ステップは、メモリに記憶された命令を使用して実行されてもよいが、勾配最適化は、ＤＭＧＯ２００に関連するハードウェアロジックを使用して実行されてもよい。ステップ９１０は、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットをメモリから取り出すステップと、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットをメモリから取り出すステップと、を含んでもよい。先に説明したように、記憶フォーマットは、縮小精度フォーマットに対応してもよい。

[00052]ステップ９２０は、選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、を含んでもよい。先に説明したように、このステップは、記憶フォーマットにおけるモーメンタム値に余分なゼロビットをパディングすることによってモーメンタム値を伸長することを含んでもよい。追加される余分なゼロビットは、モーメンタム値の圧縮の一部として切り捨てられたビットの数に依存してもよい。

[00053]ステップ９３０は、勾配オプティマイザを用いて、モーメンタム値の第３のセットおよびモーメンタム値の第４のセットを使用して勾配最適化を実行するステップを含み得る。勾配最適化に関連する計算の後、モーメンタム値は、記憶フォーマットに変換されてもよい。先に説明したように、このステップは、単精度フォーマットのモーメンタム値の符号ビットと７つの最上位ビット（ＭＳＢ）のみを記憶するステップを含んでもよい。図９は、ある順序で実行されるある数のステップを説明しているが、異なる順序の追加のステップまたはより少ないステップが実行されてもよい。

[00054]図１０は、一実施例による勾配最適化のための方法のフロー図１０００を示す。この方法は、図１のＡＩＴＳ１００、図２のＤＭＧＯ２００、または図８の勾配最適化システム８００を使用して実行されてもよい。したがって、ＤＭＧＯ２００がＨＡＧＯ６００の一部として実装される場合の例として、制御ＦＳＭ６４０から受信した制御信号に基づいて、この方法に対応するステップが実行されてもよい。さらに、図６には示されていないが、この方法の一部として実行される動作に関連するタイミングを同期させるために、クロック信号が使用され得る。あるいは、メモリ８０６に記憶された命令は、プロセッサ８０２によって実行されるとき、この方法に関連するステップを実行するために使用され得る。さらに、ＤＭＧＯ２００および勾配最適化システム８００の修正された組み合わせも使用され得る。したがって、一例として、モーメンタム圧縮および伸長ステップは、メモリに記憶された命令を使用して実行されてもよいが、勾配最適化は、ＤＭＧＯ２００に関連するハードウェアロジックを使用して実行されてもよい。ステップ１０１０は、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応するモーメンタム値の第１のセットをメモリから取り出すステップと、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応するモーメンタム値の第２のセットをメモリから取り出すステップと、を含んでもよい。先に説明したように、記憶フォーマットは、縮小精度フォーマットに対応してもよい。

[00055]ステップ１０２０は、選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、を含んでもよい。先に説明したように、このステップは、記憶フォーマットにおけるモーメンタム値に余分なゼロビットをパディングすることによってモーメンタム値を伸長するステップを含んでもよい。追加される余分なゼロビットは、モーメンタム値の圧縮の一部として切り捨てられたビットの数に依存してもよい。先に説明したように、このステップは、プロセッサ（例えば、図８のプロセッサ８０２）によって実行される場合、（例えば、図８のメモリ８０６）に記憶された命令を使用して実行されてもよい。代替的に、このステップは、図２のＤＭＧＯ２００に関連するロジックを使用して実行されてもよい。

[00056]ステップ１０３０は、勾配オプティマイザを用いて、モーメンタム値の第３のセットおよびモーメンタム値の第４のセットを使用して勾配最適化を実行するステップを含み得る。先に説明したように、このステップは、プロセッサ（例えば、図８のプロセッサ８０２）によって実行される場合、（例えば、図８のメモリ８０６）に記憶された命令を使用して実行されてもよい。代替的に、このステップは、図２のＤＭＧＯ２００に関連するロジックを使用して実行されてもよい。

[00057]ステップ１０４０は、勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成するステップを含んでもよい。先に説明したように、このステップは、プロセッサ（例えば、図８のプロセッサ８０２）によって実行される場合、（例えば、図８のメモリ８０６）に記憶された命令を使用して実行されてもよい。代替的に、このステップは、図２のＤＭＧＯ２００に関連するロジックを使用して実行されてもよい。

[00058]ステップ１０５０は、符号ビットのみを記憶し、モーメンタム値の第５のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の第５のセットを、記憶フォーマットを有するモーメンタム値の第７のセットに変換するステップを含んでもよい。先に説明したように、このステップは、単精度フォーマットのモーメンタム値の符号ビットと７つの最上位ビット（ＭＳＢ）のみを記憶するステップを含んでもよい。先に説明したように、このステップは、プロセッサ（例えば、図８のプロセッサ８０２）によって実行される場合、（例えば、図８のメモリ８０６）に記憶された命令を使用して実行されてもよい。代替的に、このステップは、図２のＤＭＧＯ２００に関連するロジックを使用して実行されてもよい。

[00059]ステップ１０６０は、符号ビットのみを記憶し、モーメンタム値の第６のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の第６のセットを、記憶フォーマットを有するモーメンタム値の第８のセットに変換するステップを含んでもよい。先に説明したように、このステップは、単精度フォーマットのモーメンタム値の符号ビットと７つの最上位ビット（ＭＳＢ）のみを記憶するステップを含んでもよい。先に説明したように、このステップは、プロセッサ（例えば、図８のプロセッサ８０２）によって実行される場合、（例えば、図８のメモリ８０６）に記憶された命令を使用して実行されてもよい。代替的に、このステップは、図２のＤＭＧＯ２００に関連するロジックを使用して実行されてもよい。図１０は、ある順序で実行されるある数のステップを説明しているが、異なる順序で追加のまたはより少ないステップが実行されてもよい。

[00060]結論として、本開示は、勾配オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法に関し、Ｌは１より大きい整数である。本方法は、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットをメモリから取り出すステップと、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットをメモリから取り出すステップと、を含んでもよい。本方法は、選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、をさらに含んでもよい。本方法は、勾配オプティマイザを用いて、モーメンタム値の第３のセットおよびモーメンタム値の第４のセットを使用して勾配最適化を実行するステップをさらに含み得る。

[00061]選択された記憶フォーマットは、縮小された単精度フォーマットを含んでもよい。訓練フォーマットは、単精度フォーマットまたは倍精度フォーマットを含んでもよい。

[00062]選択された記憶フォーマットを有するモーメンタム値の第１のセットを、訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップは、単精度フォーマットのモーメンタム値を形成するために余分なゼロビットをパディングするステップを含んでもよい。本方法は、勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成するステップと、モーメンタム値の第５のセットおよびモーメンタム値の第６のセットのそれぞれを記憶する前に、それぞれのモーメンタム値のそれぞれに関連する符号ビットおよび７つの最上位ビットのみを記憶することによってモーメンタム値の第５のセットおよびモーメンタム値の第６のセットのそれぞれを記憶フォーマットへ変換するステップと、をさらに含むことができる。

[00063]勾配最適化を実行するステップは、アダプティブモーメンタム推定アルゴリズムを実装するステップを含む。勾配オプティマイザは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を使用して実装されてもよく、勾配オプティマイザは、連続するバーストサイクルが勾配オプティマイザを通る勾配のストリーミングをもたらすように、バーストモードで動作するように構成されてもよい。

[00064]別の例では、本開示は、勾配オプティマイザを含むシステムに関する。システムは、Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリを含んでもよく、Ｌは１より大きい整数である。本システムは、（１）選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットをメモリから取り出し、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットをメモリから取り出し、（２）選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換し、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換し、（３）勾配オプティマイザを使用して、モーメンタム値の第３のセットとモーメンタム値の第４のセットを用いて勾配最適化を実行する、ように構成されてもよい。

[00065]選択された記憶フォーマットは、縮小された単精度フォーマットを含んでもよい。訓練フォーマットは、単精度フォーマットまたは倍精度フォーマットを含んでもよい。

[00066]システムはさらに、単精度フォーマットのモーメンタム値または倍精度フォーマットのモーメンタム値を形成するために、余分なゼロビットをパディングするように構成されてもよい。システムはさらに、勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成し、モーメンタム値の第５のセットおよびモーメンタム値の第６のセットのそれぞれを記憶する前に、それぞれのモーメンタム値のそれぞれに関連する符号ビットおよび７つの最上位ビットのみを記憶することによってモーメンタム値の第５のセットおよびモーメンタム値の第６のセットのそれぞれを記憶フォーマットへ変換する、ように構成されてもよい。

[00067]システムは、アダプティブモーメンタム推定アルゴリズムを実装するように構成されてもよい。勾配オプティマイザは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を使用して実装されてもよく、勾配オプティマイザは、連続するバーストサイクルが勾配オプティマイザを通る勾配のストリーミングをもたらすように、バーストモードで動作するように構成されてもよい。

[00068]さらに別の例では、本開示は、勾配オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連する重みおよびモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法に関し、Ｌは１より大きい整数である。本方法は、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応するモーメンタム値の第１のセットをメモリから取り出すステップと、選択された記憶フォーマットを有する、ニューラルネットワークモデルの層に対応するモーメンタム値の第２のセットをメモリから取り出すステップと、をさらに含んでもよい。本方法は、選択された記憶フォーマットを有するモーメンタム値の第１のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、選択された記憶フォーマットを有するモーメンタム値の第２のセットを、勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、をさらに含んでもよい。本方法は、勾配オプティマイザを用いて、モーメンタム値の第３のセットおよびモーメンタム値の第４のセットを使用して勾配最適化を実行するステップをさらに含んでもよい。本方法は、勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成するステップをさらに含んでもよい。本方法は、符号ビットのみを記憶し、モーメンタム値の第５のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の第５のセットを、記憶フォーマットを有するモーメンタム値の第７のセットに変換するステップをさらに含んでもよい。本方法は、符号ビットのみを記憶し、モーメンタム値の第６のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の第６のセットを、記憶フォーマットを有するモーメンタム値の第８のセットに変換するステップをさらに含んでもよい。

[00069]選択された記憶フォーマットは、縮小された単精度フォーマットを含んでもよい。訓練フォーマットは、単精度フォーマットまたは倍精度フォーマットを含んでもよい。本方法において、勾配最適化を実行するステップは、アダプティブモーメンタム推定アルゴリズムを実装するステップを含んでもよい。

[00070]訓練フォーマットは、３２ビット浮動小数点フォーマットを含んでもよく、記憶フォーマットは、８ビット浮動小数点フォーマットを含んでもよい。勾配オプティマイザは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を使用して実装されてもよく、勾配オプティマイザは、連続するバーストサイクルが勾配オプティマイザを通る勾配のストリーミングをもたらすように、バーストモードで動作するように構成されてもよい。

[00071]本明細書に描かれた方法、モジュール、および構成要素は、単に例示的なものであることを理解されたい。代替的に、または追加的に、本明細書で説明される機能は、少なくとも部分的に、１つまたは複数のハードウェア論理構成要素によって実行され得る。例えば、限定するものではないが、使用可能なハードウェア論理構成要素の例示的なタイプには、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途用標準品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）等が含まれる。抽象的ではあるが、明確な意味において、同じ機能を達成するための構成要素の任意の配置は、所望の機能が達成されるように効果的に「関連付けられる」。したがって、特定の機能を実現するために組み合わされた本明細書の任意の２つのコンポーネントは、アーキテクチャまたは媒体間コンポーネントに関係なく、所望の機能が達成されるように互いに「関連」していると見なすことができる。同様に、そのように関連付けられた任意の２つの構成要素は、所望の機能を達成するために互いに「動作可能に接続される」、または「結合される」とも見なすことができる。

[00072]本開示で説明されるいくつかの例に関連する機能は、非一時的媒体に記憶された命令も含み得る。本明細書で使用される「非一時的媒体」という用語は、機械を特定の方法で動作させるデータおよび／または命令を記憶する任意の媒体を指す。例示的な非一時的媒体は、不揮発性媒体および／または揮発性媒体を含む。不揮発性媒体には、例えば、ハードディスク、ソリッドステートドライブ、磁気ディスクまたはテープ、光ディスクまたはテープ、フラッシュメモリ、ＥＰＲＯＭ、ＮＶＲＡＭ、ＰＲＡＭ、またはそのような他の媒体、またはこれらの媒体のネットワーク化されたバージョンが含まれる。揮発性媒体は、例えば、ＤＲＡＭ、ＳＲＡＭ、キャッシュなどの動的メモリ、または他のそのような媒体を含む。非一時的媒体は、伝送媒体とは異なるが、伝送媒体と組み合わせて使用することができる。伝送媒体は、データおよび／または命令を機械にまたは機械から伝送するために使用される。例示的な伝送媒体には、同軸ケーブル、光ファイバーケーブル、銅線、および電波のような無線媒体が含まれる。

[00073]さらに、当業者は、上述した操作の機能の間の境界は単に例示的なものであることを認識するであろう。複数の操作の機能は、単一の操作に組み合わされてもよく、および／または、単一の操作の機能は、追加の操作に分散されてもよい。さらに、代替の実施形態は、特定の操作の複数のインスタンスを含んでもよく、操作の順序は、他の様々な実施形態において変更されてもよい。

[00074]本開示は特定の例を提供するが、以下の特許請求の範囲に規定されるように、本開示の範囲から逸脱することなく、様々な修正および変更を行うことが可能である。したがって、明細書および図面は、制限的な意味ではなく例示的な意味で見なされ、すべてのそのような修正は、本開示の範囲に含まれることが意図されている。特定の実施例に関して本明細書に記載される任意の利益、利点、または問題に対する解決策は、任意のまたはすべての請求項の重要な、必要な、または必須の特徴または要素として解釈されることを意図していない。

[00075]さらに、本明細書で使用される「ａ」または「ａｎ」という用語は、１つまたは複数として定義される。また、請求項における「少なくとも１つ」および「１つ以上」などの導入句の使用は、不定冠詞「ａ」または「ａｎ」による別の請求項要素の導入が、同じ請求項に導入句「１つ以上」または「少なくとも１つ」および不定冠詞「ａ」または「ａｎ」などが含まれていても、当該導入した請求項要素を含む任意の特定の請求項に当該要素を１つだけ含む発明を制限することを意味するものと解釈すべきではない。定冠詞の使用についても同様である。

[00076]特に断らない限り、「第１の」および「第２の」のような用語は、そのような用語が説明する要素を任意に区別するために使用される。したがって、これらの用語は、必ずしも、そのような要素の時間的または他の優先順位を示すことを意図していない。

Claims

勾配(gradient)オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法であって、Ｌは１より大きい整数であり、
選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第２のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、
前記勾配オプティマイザを用いて、モーメンタム値の前記第３のセットおよびモーメンタム値の前記第４のセットを使用して勾配最適化を実行するステップと、
を含み、前記勾配オプティマイザは、連続するバーストサイクルが前記勾配オプティマイザを通る勾配のストリーミングをもたらすように、バーストモードで動作するように構成される、
方法。
前記選択された記憶フォーマットは、縮小単精度(reduced single precision)フォーマットを含む、
請求項１に記載の方法。
前記訓練フォーマットは、単精度フォーマットまたは倍精度(double precision)フォーマットを含む、
請求項１記載の方法。
勾配(gradient)オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法であって、Ｌは１より大きい整数であり、
選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第２のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、
前記勾配オプティマイザを用いて、モーメンタム値の前記第３のセットおよびモーメンタム値の前記第４のセットを使用して勾配最適化を実行するステップと、
を含み、前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記訓練フォーマットを有するモーメンタム値の前記第３のセットに変換するステップは、単精度フォーマットのモーメンタム値を形成するために余分なゼロビットをパディング(padding)するステップを含む、
方法。
勾配(gradient)オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法であって、Ｌは１より大きい整数であり、
選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第２のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、
前記勾配オプティマイザを用いて、モーメンタム値の前記第３のセットおよびモーメンタム値の前記第４のセットを使用して勾配最適化を実行するステップと、
を含み、
勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成するステップと、モーメンタム値の前記第５のセットおよびモーメンタム値の前記第６のセットのそれぞれを記憶する前に、それぞれのモーメンタム値のそれぞれに関連する符号ビットおよび７つの最上位ビットのみを記憶することによってモーメンタム値の前記第５のセットおよびモーメンタム値の前記第６のセットのそれぞれを前記記憶フォーマットへ変換するステップと、
をさらに含む、方法。
勾配最適化を実行するステップは、アダプティブモーメンタム推定アルゴリズムを実装するステップを含む、
請求項１に記載の方法。
前記勾配オプティマイザは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を使用して実装される、
請求項６に記載の方法。
勾配オプティマイザを含むシステムであって、
Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリを含み、Ｌは１より大きい整数であり、
選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットを前記メモリから取り出し、
前記選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットを前記メモリから取り出し、
前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換し、
前記選択された記憶フォーマットを有するモーメンタム値の前記第２のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換し、
前記勾配オプティマイザを使用して、モーメンタム値の前記第３のセットとモーメンタム値の前記第４のセットを用いて勾配最適化を実行する、
ように構成され、前記勾配オプティマイザは、連続するバーストサイクルが前記勾配オプティマイザを通る勾配のストリーミングをもたらすように、バーストモードで動作するように構成される、
記載のシステム。
前記選択された記憶フォーマットは、縮小単精度フォーマットを含む、
請求項８に記載のシステム。
勾配オプティマイザを含むシステムであって、
Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリを含み、Ｌは１より大きい整数であり、
選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットを前記メモリから取り出し、
前記選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットを前記メモリから取り出し、
前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換し、
前記選択された記憶フォーマットを有するモーメンタム値の前記第２のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換し、
前記勾配オプティマイザを使用して、モーメンタム値の前記第３のセットとモーメンタム値の前記第４のセットを用いて勾配最適化を実行する、
ように構成され、
前記訓練フォーマットは、単精度フォーマットまたは倍精度フォーマットを含み、
単精度フォーマットのモーメンタム値または倍精度フォーマットのモーメンタム値を形成するために、余分なゼロビットをパディングするようにさらに構成される、
システム。
勾配オプティマイザを含むシステムであって、
Ｌ層を含むニューラルネットワークモデルに関連するモーメンタム値を記憶するように構成されたメモリを含み、Ｌは１より大きい整数であり、
選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第１のセットを前記メモリから取り出し、
前記選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応する、モーメンタム値の第２のセットを前記メモリから取り出し、
前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換し、
前記選択された記憶フォーマットを有するモーメンタム値の前記第２のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換し、
前記勾配オプティマイザを使用して、モーメンタム値の前記第３のセットとモーメンタム値の前記第４のセットを用いて勾配最適化を実行する、
ように構成され、
勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成し、モーメンタム値の前記第５のセットおよびモーメンタム値の前記第６のセットのそれぞれを記憶する前に、それぞれのモーメンタム値のそれぞれに関連する符号ビットおよび７つの最上位ビットのみを記憶することによってモーメンタム値の前記第５のセットおよびモーメンタム値の前記第６のセットのそれぞれを前記記憶フォーマットへ変換する、ようにさらに構成される、
システム。
アダプティブモーメンタム推定アルゴリズムを実装するように構成される、
請求項８に記載のシステム。
前記勾配オプティマイザは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を使用して実装される、
請求項８に記載のシステム。
勾配オプティマイザと、Ｌ層を含むニューラルネットワークモデルに関連する重みおよびモーメンタム値を記憶するように構成されたメモリと、を含むシステムにおける方法であって、Ｌは１より大きい整数であり、
選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応するモーメンタム値の第１のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有する、前記ニューラルネットワークモデルの層に対応するモーメンタム値の第２のセットを前記メモリから取り出すステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第１のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第３のセットに変換するステップと、
前記選択された記憶フォーマットを有するモーメンタム値の前記第２のセットを、前記勾配オプティマイザに関連付けられた訓練フォーマットを有するモーメンタム値の第４のセットに変換するステップと、
前記勾配オプティマイザを用いて、モーメンタム値の前記第３のセットおよびモーメンタム値の前記第４のセットを使用して勾配最適化を実行するステップと、
勾配最適化の次の反復のためのモーメンタム値の第５のセットおよびモーメンタム値の第６のセットを生成するステップと、
符号ビットのみを記憶し、モーメンタム値の前記第５のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の前記第５のセットを、前記記憶フォーマットを有するモーメンタム値の第７のセットに変換するステップと、
符号ビットのみを記憶し、モーメンタム値の前記第６のセットの仮数に関連する所定の数のビットを切り捨てることによって、モーメンタム値の前記第６のセットを、前記記憶フォーマットを有するモーメンタム値の第８のセットに変換するステップと、
を含む、方法。
前記勾配オプティマイザは、連続するバーストサイクルが前記勾配オプティマイザを通る勾配のストリーミングをもたらすように、バーストモードで動作するように構成される、
請求項１４に記載の方法。
前記選択された記憶フォーマットは、縮小単精度(reduced single precision)フォーマットを含む、
請求項１４または１５に記載の方法。
前記訓練フォーマットは、単精度フォーマットまたは倍精度(double precision)フォーマットを含む、
請求項１４または１５記載の方法。
勾配最適化を実行するステップは、アダプティブモーメンタム推定アルゴリズムを実装するステップを含む、
請求項１４または１５に記載の方法。
前記訓練フォーマットは、３２ビット浮動小数点フォーマットを含み、前記記憶フォーマットは、８ビット浮動小数点フォーマットを含む、
請求項１４または１５に記載の方法。
前記勾配オプティマイザは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を使用して実装される、
請求項１４または１５に記載の方法。