JP2023025146A - エンドツーエンドの自己適応に基づく分散型トレーニング方法、装置、及び機器 - Google Patents
エンドツーエンドの自己適応に基づく分散型トレーニング方法、装置、及び機器 Download PDFInfo
- Publication number
- JP2023025146A JP2023025146A JP2022192338A JP2022192338A JP2023025146A JP 2023025146 A JP2023025146 A JP 2023025146A JP 2022192338 A JP2022192338 A JP 2022192338A JP 2022192338 A JP2022192338 A JP 2022192338A JP 2023025146 A JP2023025146 A JP 2023025146A
- Authority
- JP
- Japan
- Prior art keywords
- training
- model
- distributed
- trained
- computational
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 409
- 238000000034 method Methods 0.000 title claims abstract description 133
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims description 85
- 230000008569 process Effects 0.000 claims description 64
- 230000009467 reduction Effects 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 14
- 230000000246 remedial effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 20
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 13
- 238000000638 solvent extraction Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 108020001568 subdomains Proteins 0.000 description 3
- 230000008093 supporting effect Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
トレーニング対象のモデルを分割して、分割結果を取得するステップと、
トレーニング対象のモデルに割り当てられたトレーニング用の計算資源を解析して、計算資源の属性を取得するステップであって、トレーニング対象のモデルに割り当てられたトレーニング用の計算資源が、トレーニング対象のモデルの計算資源のニーズ、他のトレーニング中のモデルが占有する計算資源、およびアイドルの計算資源に基づいて決定され、計算資源の属性が、計算資源のトポロジ関係及びタスク処理能力のうちの少なくとも1つを表すステップと、
計算資源の属性を使用して、計算資源における各分割結果の分散ポリシーを決定するステップと、
分散ポリシーに基づいて、計算資源を使用してトレーニング対象のモデルに対して分散型トレーニングを行うステップと、を含む。
トレーニング対象のモデルを分割して、分割結果を取得する分割モジュールと、
トレーニング対象のモデルに割り当てられたトレーニング用の計算資源を解析して、計算資源の属性を取得するための計算資源の属性決定モジュールであって、トレーニング対象のモデルに割り当てられたトレーニング用の計算資源が、トレーニング対象のモデルの計算資源のニーズ、他のトレーニング中のモデルが占有する計算資源、およびアイドルの計算資源に基づいて決定され、計算資源の属性が、計算資源のトポロジ関係及びタスク処理能力のうちの少なくとも1つを表す計算資源の属性決定モジュールと、
計算資源の属性を使用して、計算資源における各分割結果の分散ポリシーを決定するための分散ポリシー決定モジュールと、
分散ポリシーに基づいて、計算資源を使用してトレーニング対象のモデルに対して分散型トレーニングを行うための分散型トレーニングモジュールと、を含む。
少なくとも1つのプロセッサと、
当該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
当該メモリには、当該少なくとも1つのプロセッサによって実行可能な命令が記憶されており、当該命令は、当該少なくとも1つのプロセッサが本開示の任意の実施例の方法を実行できるように、当該少なくとも1つのプロセッサによって実行される。
配置情報を使用して、通信支援演算子を決定するステップであって、通信支援演算子は、各スライス間のアップダウンストリーム論理演算関係を表すステップを含むことができる。
各スライス間のネットワーク層の一致性関係を表す再構成変換演算子を決定するステップを含むことができる。
クライアントから発信されたモデルトレーニング要求を解析して決定することを含む。
予めトレーニングされた分割ポリシーモデルを使用して決定することを含む。
計算資源のハードウェアトポロジ関係を決定し、ハードウェアトポロジ関係を計算資源の属性とするステップを含むことができる。
各最小コンポーネントの密接関係リストを決定するステップであって、密接関係リストが、ソース最小コンポーネントと目的最小コンポーネントとの接続関係、帯域幅情報及び遅延情報のうちの少なくとも1つを含むステップと、
密接関係リストを計算資源のハードウェアトポロジ関係とするステップと、をさらに含む。
通信トポロジ関係に基づいて、ソース計算資源とターゲット計算資源との間の最短通信ルートを決定するステップをさらに含むことができる。
所定のルールを使用して、各前記候補分散ポリシーをソートするステップと、
ソートの結果に基づいて、前記候補分散ポリシーからターゲット分散ポリシーを決定するステップと、を含むことができる。
計算資源に故障が発生した時のトレーニング状態を取得し、
トレーニング状態に基づいて、候補計算資源でトレーニングの再試行を行う。
トレーニングの初期状態を取得し、
初期状態に基づいて、候補計算資源でトレーニングの再試行を行う。
変化後の数に基づいて、トレーニング対象のモデルの学習率と1回のトレーニングで選択されたサンプル数を調整するステップをさらに含む。
トレーニング対象のモデルを分割して、分割結果を取得する分割モジュール1901と、
トレーニング対象のモデルに割り当てられたトレーニング用の計算資源を解析して、計算資源の属性を取得する計算資源の属性決定モジュール1902であって、トレーニング対象のモデルに割り当てられたトレーニング用の計算資源が、トレーニング対象のモデルの計算資源のニーズ、他のトレーニング中のモデルが占有する計算資源、およびアイドルの計算資源に基づいて決定され、計算資源の属性が、計算資源のトポロジ関係及びタスク処理能力のうちの少なくとも1つを表す計算資源の属性決定モジュール1902と、
計算資源の属性を使用して、計算資源における各分割結果の分散ポリシーを決定する分散ポリシー決定モジュール1903と、
分散ポリシーに基づいて、計算資源を使用してトレーニング対象のモデルに対して分散型トレーニングを行う分散型トレーニングモジュール1904と、を含むことができる。
トレーニング対象のモデル内の演算子とテンソルを決定する演算子とテンソルの決定サブモジュールと、
分割ポリシーを使用して、トレーニング対象のモデル内の演算子とテンソルを分割して、分割結果を取得する分割実行サブモジュールと、を含むことができる。
分割ポリシーを使用して、トレーニング対象のモデル内の演算子とテンソルを分割して、N個のスライスを取得する分割ポリシー実行ユニットであって、Nが正の整数である分割ポリシー実行ユニットと、
各スライスに対して、スライスの分散属性情報をロードする分散属性情報ロードユニットであって、分散属性情報が、トレーニング対象のモデルにおける当該スライスのプロセストポロジ情報、当該スライスの分割マッピング情報、及び当該スライスのスライスサイズ情報のうちの少なくとも1つを含む分散属性情報ロードユニットと、を含み、
分散属性情報がロードされたスライスを分割結果とする。
所定の方式を使用して分散属性情報の複数の候補カテゴリを受信する候補カテゴリ受信サブユニットと、
複数の候補カテゴリで決定されたターゲットカテゴリを分散属性情報のカテゴリとする選別サブユニットと、を含むことができる。
配置情報を使用して、通信支援演算子を決定する通信支援演算子決定ユニットであって、通信支援演算子が各スライス間の論理演算関係を表す通信支援演算子決定ユニットを含む。
各スライス間のネットワーク層の一致性関係を表す再構成変換演算子を決定する再構成変換演算子決定ユニットを含む。
クライアントから発信されたモデルトレーニング要求を解析して決定する分割ポリシー決定ユニットを含むことができる。
予めトレーニングされた分割ポリシーモデルを使用して決定する分割ポリシー決定ユニットを含むことができる。
計算資源のハードウェアトポロジ関係を決定し、ハードウェアトポロジ関係を計算資源の属性とする。
計算資源における最小コンポーネントを決定する最小コンポーネント決定サブモジュールであって、最小コンポーネントがプロセッサまたはメモリを含む最小コンポーネント決定サブモジュールと、
少なくとも1つの最小コンポーネントからなるマシン機器を決定するマシン機器決定サブモジュールであって、各マシン機器内の最小コンポーネントが重複しないマシン機器決定サブモジュールと、
少なくとも1つのマシン機器からなるクラスタを決定するクラスタ決定サブモジュールであって、各クラスタ内のマシン機器が重複しないクラスタ決定サブモジュールと、を含み、
最小コンポーネント、マシン機器及びクラスタを計算資源のハードウェアトポロジ関係とする。
各最小コンポーネントの密接関係リストを決定し、密接関係リストが、ソース最小コンポーネントと目的最小コンポーネントとの接続関係、帯域幅情報及び遅延情報のうちの少なくとも1つを含み、
密接関係リストを計算資源のハードウェアトポロジ関係とする。
計算資源の通信ルートを取得する通信ルート取得サブモジュールと、
計算資源の通信ルートを使用して、各計算資源間の通信トポロジ関係を構築する通信トポロジ関係構築サブモジュールと、を含み、
通信トポロジ関係を計算資源の属性とする。
計算資源における各分割結果の候補分散ポリシーを取得する候補分散ポリシー取得サブモジュールと、
各候補分散ポリシーの効率をそれぞれ統計する効率統計サブモジュールと、
各候補分散ポリシーの効率に基づいて、候補分散ポリシーからターゲット分散ポリシーを決定するターゲット分散ポリシー決定サブモジュールと、を含むことができる。
所定のルールを使用して、各候補分散ポリシーをソートするソートユニットと、
ソートの結果に基づいて、候補分散ポリシーからターゲット分散ポリシーを決定する結果決定ユニットと、を含むことができる。
計算資源の使用可能性を定期的に検出する使用可能性検出サブモジュールと、
検出結果に計算資源が使用できない場合、救済措置を実行する救済措置実行サブモジュールであって、使用できない場合は計算資源の故障または計算資源の数の削減を含む救済措置実行サブモジュールと、を含むことができる。
クライアントから発信されたモデルトレーニング要求に含まれるトレーニングモードを取得するトレーニングモード取得ユニットと、
トレーニングモードがフォールトトレラントトレーニングモードである場合、計算資源の故障回復を待機する待機ユニットと、
所定の時間内に計算資源が故障から回復していない場合、実行を終了すると決定する結果決定ユニットと、を含むことができる。
トレーニングモードが柔軟なトレーニングモードである場合、候補計算資源を決定する候補計算資源決定ユニットと、
候補計算資源においてトレーニングの再試行を行う再試行ユニットと、をさらに含むことができる。
計算資源に故障が発生する時のトレーニング状態を取得するトレーニング状態取得サブユニットと、
トレーニング状態に基づいて、候補計算資源においてトレーニングの再試行を行う再試行実行サブユニットと、を含むことができる。
トレーニングの初期状態を取得する初期状態取得サブユニットと、
初期状態に基づいて、候補計算資源においてトレーニングの再試行を行う再試行実行サブユニットと、を含むことができる。
削減された計算資源の第1の数を決定する第1の数決定ユニットと、
第1の数に基づいて、トレーニング対象のモデルを再分割して、再分割された第1の結果を取得する第1の再分割ユニットと、
再決定された削減後に残った計算資源の属性を使用して、削減された計算資源における各再分割された第1の結果の第1の分散ポリシーを決定する第1の分散ポリシー決定ユニットと、
第1の分散ポリシーに基づいて、削減された計算資源を使用してトレーニング対象のモデルに対して分散型トレーニングを行う分散型トレーニング実行ユニットと、を含むことができる。
使用可能な追加の計算資源の第2の数を決定する第2の数決定ユニットと、
第2の数に基づいて、トレーニング対象のモデルを再分割して、再分割された第2の結果を取得する第2の再分割ユニットと、
再決定された追加の計算資源の属性を使用して、拡張された計算資源における各再分割された第2の結果の第2の分散ポリシーを決定する第2の分散ポリシー決定ユニットと、
第2の分散ポリシーに基づいて、拡張された計算資源を使用してトレーニング対象のモデルに対して分散型トレーニングを行う分散型トレーニング実行ユニットと、を含むことができる。
変化後の数に基づいて、トレーニング対象のモデルの学習率と1回のトレーニングで選択されたサンプル数を調整する調整サブユニットをさらに含む。
本開示の実施例によれば、本開示は、コンピュータプログラムさらに提供し、当該コンピュータプログラムはプロセッサによって実行される場合、本開示によって提供されるエンドツーエンドの自己適応に基づく分散型トレーニング方法が実現される。
Claims (35)
- エンドツーエンドの自己適応に基づく分散型トレーニング方法であって、
トレーニング対象のモデルを分割して、分割結果を取得するステップと、
前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源を解析して、前記計算資源の属性を取得するステップであって、前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源が、前記トレーニング対象のモデルの計算資源のニーズ、他のトレーニング中のモデルが占有する計算資源及びアイドルの計算資源に基づいて決定され、前記計算資源の属性が、前記計算資源のトポロジ関係及びタスク処理能力のうちの少なくとも1つを表すステップと、
前記計算資源の属性を使用して、前記計算資源における各前記分割結果の分散ポリシーを決定するステップと、
前記分散ポリシーに基づいて、前記計算資源を使用して前記トレーニング対象のモデルに対して分散型トレーニングを行うステップと、を含む、
ことを特徴とするエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記トレーニング対象のモデルを分割して、分割結果を取得するステップは、
前記トレーニング対象のモデルの演算子とテンソルを決定するステップと、
前記分割ポリシーを使用して、前記トレーニング対象のモデル内の演算子とテンソルを分割して、前記分割結果を取得するステップと、を含む、
ことを特徴とする請求項1に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記分割ポリシーを使用して、前記トレーニング対象のモデル内の演算子とテンソルを分割して、前記分割結果を取得するステップは、
前記分割ポリシーを使用して、前記トレーニング対象のモデル内の演算子とテンソルを分割して、N個のスライスを取得するステップであって、前記Nが正の整数であるステップと、
各前記スライスに対して、前記スライスの分散属性情報をロードするステップであって、前記分散属性情報が前記トレーニング対象のモデルにおける当該スライスのプロセストポロジ情報、当該スライスの分割マッピング情報、及び当該スライスのスライスサイズ情報のうちの少なくとも1つを含むステップと、
前記分散属性情報がロードされたスライスを前記分割結果とするステップと、を含み、
前記分散属性情報のカテゴリの決定方式は、
所定の方式で前記分散属性情報の複数の候補カテゴリを受信するステップと、
前記複数の候補カテゴリで決定されたターゲットカテゴリを、前記分散属性情報のカテゴリとするステップと、を含む、
ことを特徴とする請求項2に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 各前記スライスの分散属性を使用して、各前記スライスの配置情報を決定するステップであって、前記配置情報が、前記スライスと前記計算資源との物理的マッピング関係を表すステップをさらに含む、
ことを特徴とする請求項3に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記スライスが前記トレーニング対象のモデルの隣接ネットワーク層に位置し、かつ前記スライスの配置情報が異なる場合、
前記配置情報を使用して、各前記スライス間の論理演算関係を表す通信支援演算子を決定するステップを含み、
前記スライスが前記トレーニング対象のモデルの同一ネットワーク層に位置する場合、
各前記スライス間のネットワーク層の一致性関係を表す再構成変換演算子を決定するステップを含む、
ことを特徴とする請求項4に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記分割ポリシーの決定方式は、
前記クライアントから発信されたモデルトレーニング要求を解析して決定するステップ、
または
予めトレーニングされた分割ポリシーモデルを使用して決定するステップを含む、
ことを特徴とする請求項2に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源を解析して、前記計算資源の属性を取得するステップは、
前記計算資源のハードウェアトポロジ関係を決定し、前記ハードウェアトポロジ関係を前記計算資源の属性とするステップを含み、
前記計算資源のハードウェアトポロジ関係を決定するステップは、
前記計算資源内の最小コンポーネントを決定するステップであって、前記最小コンポーネントがプロセッサまたはメモリを含むステップと、
少なくとも1つの前記最小コンポーネントからなるマシン機器を決定するステップであって、各前記マシン機器内の最小コンポーネントが重複しないステップと、
少なくとも1つの前記マシン機器からなるクラスタを決定するステップであって、各クラスタ内のマシン機器が重複しないステップと、
前記最小コンポーネント、前記マシン機器及び前記クラスタを前記計算資源のハードウェアトポロジ関係とするステップと、を含み、
前記計算資源のハードウェアトポロジ関係を決定するステップは、
各前記最小コンポーネントの密接関係リストを決定するステップであって、前記密接関係リストがソース最小コンポーネントと目的最小コンポーネントとの間の接続関係、帯域幅情報及び遅延情報のうちの少なくとも1つを含むステップと、
前記密接関係リストを前記計算資源のハードウェアトポロジ関係とするステップと、をさらに含む、
ことを特徴とする請求項1に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源は、前記クライアントから発信されたモデルトレーニング要求のコンテンツ、及びモデルトレーニング要求を発信するクライアントの数のうちの少なくとも1つに基づいて決定される、
ことを特徴とする請求項1に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源を解析して、前記計算資源の属性を取得するステップは、
前記計算資源の通信ルートを取得するステップと、
前記計算資源の通信ルートを使用して、各前記計算資源間の通信トポロジ関係を構築するステップと、
前記通信トポロジ関係を前記計算資源の属性とするステップと、を含み、
前記方法は、前記通信トポロジ関係に基づいて、ソース計算資源とターゲット計算資源との間の最短通信ルートを決定するステップをさらに含む、
ことを特徴とする請求項1に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記計算資源の属性を使用して、前記計算資源における各前記分割結果の分散ポリシーを決定するステップは、
前記計算資源における各前記分割結果の候補分散ポリシーを取得するステップと、
各前記候補分散ポリシーの効率をそれぞれ統計するステップと、
各前記候補分散ポリシーの効率に基づいて、前記候補分散ポリシーからターゲット分散ポリシーを決定するステップと、を含み、
前記各前記候補分散ポリシーの効率に基づいて、前記候補分散ポリシーからターゲット分散ポリシーを決定するステップは、
所定のルールを使用して、各前記候補分散ポリシーをソートするステップと、
ソートの結果に基づいて、前記候補分散ポリシーからターゲット分散ポリシーを決定するステップと、を含む、
ことを特徴とする請求項1に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記分散ポリシーに基づいて、前記計算資源を使用して前記トレーニング対象のモデルに対して分散型トレーニングを行うステップは、
前記計算資源の使用可能性を定期的に検出するステップと、
検出結果に前記計算資源が使用できない場合、救済措置を実行するステップであって、前記使用できない場合が、計算資源の故障または計算資源の数の削減を含むステップと、を含む、
ことを特徴とする請求項1に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記使用できない場合が計算資源の故障である場合、前記救済措置を実行するステップは、
前記クライアントから発信されたモデルトレーニング要求に含まれるトレーニングモードを取得するステップと、
前記トレーニングモードがフォールトトレラントトレーニングモードである場合、計算資源の故障回復を待機するステップと、
所定の時間内に前記計算資源が故障から回復していない場合、実行を終了すると決定するステップと、を含み、
前記使用できない場合が計算資源の故障である場合、前記救済措置を実行するステップは、
前記トレーニングモードが柔軟なトレーニングモードである場合、候補計算資源を決定するステップと、
前記候補計算資源においてトレーニングの再試行を行うステップと、をさらに含む、
ことを特徴とする請求項11に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記候補計算資源においてトレーニングの再試行を行うステップは、
前記計算資源に故障が発生する時のトレーニング状態を取得するステップと、
前記トレーニング状態に基づいて、前記候補計算資源においてトレーニングの再試行を行うステップと、を含み、
または
前記候補計算資源においてトレーニングの再試行を行うステップは、
トレーニングの初期状態を取得するステップと、
前記初期状態に基づいて、前記候補計算資源においてトレーニングの再試行を行うステップと、を含む、
ことを特徴とする請求項12に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記使用できない場合が計算資源の数の削減である場合、前記救済措置を実行するステップは、
削減された前記計算資源の第1の数を決定するステップと、
前記第1の数に基づいて、前記トレーニング対象のモデルを再分割して、再分割された第1の結果を取得するステップと、
再決定された削減後に残った前記計算資源の属性を使用して、削減された前記計算資源における各前記再分割された第1の結果の第1の分散ポリシーを決定するステップと、
前記第1の分散ポリシーに基づいて、削減された前記計算資源を使用して前記トレーニング対象のモデルに対して分散型トレーニングを行うステップと、を含む、
ことを特徴とする請求項11に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 検出結果に使用可能な追加の計算資源がある場合、
使用可能な前記追加の計算資源の第2の数を決定するステップと、
前記第2の数に基づいて、前記トレーニング対象のモデルを再分割して、再分割された第2の結果を取得するステップと、
再決定された追加の前記計算資源の属性を使用して、拡張された前記計算資源における各前記再分割された第2の結果の第2の分散ポリシーを決定するステップと、
前記第2の分散ポリシーに基づいて、拡張された前記計算資源を使用して前記トレーニング対象のモデルに対して分散型トレーニングを行うステップと、を含み、
前記計算資源の数が変化する場合、
変化後の数に基づいて、前記トレーニング対象のモデルの学習率と1回のトレーニングで選択されたサンプル数を調整するステップをさらに含む、
ことを特徴とする請求項11に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 前記分散型トレーニングは、脱中心化の非同期パイプライントレーニングを含み、
前記トレーニング対象のモデルは、クライアントから発信されたモデルトレーニング要求に基づいて得られる、
ことを特徴とする請求項1に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - エンドツーエンドの自己適応に基づく分散型トレーニング装置であって、
トレーニング対象のモデルを分割して、分割結果を取得する分割モジュールと、
前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源を解析して、前記計算資源の属性を取得する計算資源の属性決定モジュールであって、前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源が、前記トレーニング対象のモデルの計算資源のニーズ、他のトレーニング中のモデルが占有する計算資源及びアイドルの計算資源に基づいて決定され、前記計算資源の属性が、前記計算資源のトポロジ関係及びタスク処理能力のうちの少なくとも1つを表す計算資源の属性決定モジュールと、
前記計算資源の属性を使用して、前記計算資源における各前記分割結果の分散ポリシーを決定する分散ポリシー決定モジュールと、
前記分散ポリシーに基づいて、前記計算資源を使用して前記トレーニング対象のモデルに対して分散型トレーニングを行う分散型トレーニングモジュールと、を含む、
ことを特徴とするエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記分割モジュールが、
前記トレーニング対象のモデル内の演算子とテンソルを決定する演算子とテンソルの決定サブモジュールと、
前記分割ポリシーを使用して、前記トレーニング対象のモデル内の演算子とテンソルを分割して、前記分割結果を取得する分割実行サブモジュールと、を含む、
ことを特徴とする請求項17に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記分割実行サブモジュールが、
前記分割ポリシーを使用して、前記トレーニング対象のモデル内の演算子とテンソルを分割して、N個のスライスを取得する分割ポリシー実行ユニットであって、前記Nが正の整数である分割ポリシー実行ユニットと、
各前記スライスに対して、前記スライスの分散属性情報をロードする分散属性情報ロードユニットであって、前記分散属性情報が前記トレーニング対象のモデルにおける当該スライスのプロセストポロジ情報、当該スライスの分割マッピング情報、及び当該スライスのスライスサイズ情報のうちの少なくとも1つを含む分散属性情報ロードユニットと、を含み、
前記分散属性情報がロードされたスライスを前記分割結果とし、
前記分散属性情報ロードユニットが、
所定の方式で前記分散属性情報の複数の候補カテゴリを受信する候補カテゴリ受信サブユニットと、
前記複数の候補カテゴリで決定されたターゲットカテゴリを、前記分散属性情報のカテゴリとする選別サブユニットと、を含む、
ことを特徴とする請求項18に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 各前記スライスの分散属性を使用して、各前記スライスの配置情報を決定する配置情報決定ユニットであって、前記配置情報が、前記スライスと前記計算資源との物理的マッピング関係を表す配置情報決定ユニットをさらに含む、
ことを特徴とする請求項19に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記スライスが前記トレーニング対象のモデルの隣接ネットワーク層に位置し、かつ前記スライスの配置情報が異なる場合、
前記配置情報を使用して、各前記スライス間の論理演算関係を表す通信支援演算子を決定する通信支援演算子決定ユニットを含み、
前記スライスが前記トレーニング対象のモデルの同一ネットワーク層に位置する場合、
各前記スライス間のネットワーク層の一致性関係を表す再構成変換演算子を決定する再構成変換演算子決定ユニットを含む、
ことを特徴とする請求項20に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記分割実行サブモジュールが、
前記クライアントから発信されたモデルトレーニング要求を解析して決定する分割ポリシー決定ユニットを含み、
または
前記分割実行サブモジュールが、
予めトレーニングされた分割ポリシーモデルを使用して決定する分割ポリシー決定ユニットを含む、
ことを特徴とする請求項18に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記計算資源の属性決定モジュールが、
前記計算資源のハードウェアトポロジ関係を決定し、前記ハードウェアトポロジ関係を前記計算資源の属性とし、
前記計算資源の属性決定モジュールが、さらに、
前記計算資源内の最小コンポーネントを決定する最小コンポーネント決定サブモジュールであって、前記最小コンポーネントがプロセッサまたはメモリを含む最小コンポーネント決定サブモジュールと、
少なくとも1つの前記最小コンポーネントからなるマシン機器を決定するマシン機器決定サブモジュールであって、各前記マシン機器内の最小コンポーネントが重複しないマシン機器決定サブモジュールと、
少なくとも1つの前記マシン機器からなるクラスタを決定するクラスタ決定サブモジュールであって、各クラスタ内のマシン機器が重複しないクラスタ決定サブモジュールと、を含み、
前記最小コンポーネント、前記マシン機器及び前記クラスタを前記計算資源のハードウェアトポロジ関係とし、
前記計算資源の属性決定モジュールが、さらに、
各前記最小コンポーネントの密接関係リストを決定し、前記密接関係リストがソース最小コンポーネントと目的最小コンポーネントとの間の接続関係、帯域幅情報及び遅延情報のうちの少なくとも1つを含み、
前記密接関係リストを前記計算資源のハードウェアトポロジ関係とする、
ことを特徴とする請求項17に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記トレーニング対象のモデルに割り当てられたトレーニング用の計算資源は、前記クライアントから発信されたモデルトレーニング要求のコンテンツ、及びモデルトレーニング要求を発信するクライアントの数のうちの少なくとも1つに基づいて決定される、
ことを特徴とする請求項17に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記計算資源の属性決定モジュールが、
前記計算資源の通信ルートを取得する通信ルート取得サブモジュールと、
前記計算資源の通信ルートを使用して、各前記計算資源間の通信トポロジ関係を構築する通信トポロジ関係構築サブモジュールと、を含み、
前記通信トポロジ関係を前記計算資源の属性とし、
前記装置は、前記通信トポロジ関係に基づいて、ソース計算資源とターゲット計算資源との間の最短通信ルートを決定する最短通信ルート構築サブモジュールをさらに含む、
ことを特徴とする請求項17に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記分散ポリシー決定モジュールが、
前記計算資源における各前記分割結果の候補分散ポリシーを決定する候補分散ポリシー取得サブモジュールと、
各前記候補分散ポリシーの効率をそれぞれ統計する効率統計サブモジュールと、
各前記候補分散ポリシーの効率に基づいて、前記候補分散ポリシーからターゲット分散ポリシーを決定するターゲット分散ポリシー決定サブモジュールと、を含み、
前記ターゲット分散ポリシー決定サブモジュールが、
所定のルールを使用して、各前記候補分散ポリシーをソートするソートユニットと、
ソートの結果に基づいて、前記候補分散ポリシーからターゲット分散ポリシーを決定する結果決定ユニットと、を含む、
ことを特徴とする請求項17に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記分散型トレーニングモジュールが、
前記計算資源の使用可能性を定期的に検出する使用可能性検出サブモジュールと、
検出結果に前記計算資源が使用できない場合、救済措置を実行する救済措置実行サブモジュールであって、前記使用できない場合が、計算資源の故障または計算資源の数の削減を含む救済措置実行サブモジュールと、を含む、
ことを特徴とする請求項17に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記使用できない場合が計算資源の故障である場合、前記救済措置実行サブモジュールが、
前記クライアントから発信されたモデルトレーニング要求に含まれるトレーニングモードを取得するトレーニングモード取得ユニットと、
前記トレーニングモードがフォールトトレラントトレーニングモードである場合、計算資源の故障回復を待機する待機ユニットと、
所定の時間内に前記計算資源が故障から回復していない場合、実行を終了すると決定する結果決定ユニットと、を含み、
前記使用できない場合が計算資源の故障である場合、前記救済措置実行サブモジュールが、
前記トレーニングモードが柔軟なトレーニングモードである場合、候補計算資源を決定する候補計算資源決定ユニットと、
前記候補計算資源においてトレーニングの再試行を行う再試行ユニットと、をさらに含む、
ことを特徴とする請求項27に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記再試行ユニットが、
前記計算資源に故障が発生する時のトレーニング状態を取得するトレーニング状態取得サブユニットと、
前記トレーニング状態に基づいて、前記候補計算資源においてトレーニングの再試行を行う再試行実行サブユニットと、を含み、
または
前記再試行ユニットが、
トレーニングの初期状態を取得する初期状態取得サブユニットと、
前記初期状態に基づいて、前記候補計算資源においてトレーニングの再試行を行う再試行実行サブユニットと、を含む、
ことを特徴とする請求項28に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記使用できない場合が計算資源の数の削減である場合、前記救済措置実行サブモジュールが、
削減された前記計算資源の第1の数を決定する第1の数決定ユニットと、
前記第1の数に基づいて、前記トレーニング対象のモデルを再分割して、再分割された第1の結果を取得する第1の再分割ユニットと、
再決定された削減後に残った前記計算資源の属性を使用して、削減された前記計算資源における各前記再分割された第1の結果の第1の分散ポリシーを決定する第1の分散ポリシー決定ユニットと、
前記第1の分散ポリシーに基づいて、削減された前記計算資源を使用して前記トレーニング対象のモデルに対して分散型トレーニングを行う分散型トレーニング実行ユニットと、を含む、
ことを特徴とする請求項27に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 検出結果に使用可能な追加の計算資源がある場合、
使用可能な前記追加の計算資源の第2の数を決定する第2の数決定ユニットと、
前記第2の数に基づいて、前記トレーニング対象のモデルを再分割して、再分割された第2の結果を取得する第2の再分割ユニットと、
再決定された追加の前記計算資源の属性を使用して、拡張された前記計算資源における各前記再分割された第2の結果の第2の分散ポリシーを決定する第2の分散ポリシー決定ユニットと、
前記第2の分散ポリシーに基づいて、拡張された前記計算資源を使用して前記トレーニング対象のモデルに対して分散型トレーニングを行う分散型トレーニング実行ユニットと、を含み、
前記計算資源の数が変化する場合、
変化後の数に基づいて、前記トレーニング対象のモデルの学習率と1回のトレーニングで選択されたサンプル数を調整する調整サブユニットをさらに含む、
ことを特徴とする請求項27に記載のエンドツーエンドの自己適応に基づく分散型トレーニング装置。 - 前記分散型トレーニングは、脱中心化の非同期パイプライントレーニングを含み、
前記トレーニング対象のモデルが、クライアントから発信されたモデルトレーニング要求に基づいて得られる、
ことを特徴とする請求項17に記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~16のいずれかに記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~16のいずれかに記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、当該コンピュータプログラムはプロセッサによって実行される場合、請求項1~16のいずれかに記載のエンドツーエンドの自己適応に基づく分散型トレーニング方法のステップが実現される、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111471601.7 | 2021-12-06 | ||
CN202111471601.7A CN114169427B (zh) | 2021-12-06 | 2021-12-06 | 基于端到端自适应的分布式训练方法、装置、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023025146A true JP2023025146A (ja) | 2023-02-21 |
JP7430237B2 JP7430237B2 (ja) | 2024-02-09 |
Family
ID=80482979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022192338A Active JP7430237B2 (ja) | 2021-12-06 | 2022-11-30 | エンドツーエンドの自己適応に基づく分散型トレーニング方法、装置、及び機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230169351A1 (ja) |
EP (1) | EP4191411A1 (ja) |
JP (1) | JP7430237B2 (ja) |
KR (1) | KR20220161234A (ja) |
CN (1) | CN114169427B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418127B (zh) * | 2022-03-23 | 2022-07-12 | 阿里云计算有限公司 | 机器学习计算优化方法和平台 |
CN115114927A (zh) * | 2022-04-22 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种模型训练方法和相关装置 |
CN114841315A (zh) * | 2022-04-22 | 2022-08-02 | 北京百度网讯科技有限公司 | 混合专家模型实现方法、系统、电子设备及存储介质 |
CN117278554A (zh) * | 2022-06-14 | 2023-12-22 | 华为云计算技术有限公司 | 一种基于云管理平台的数据处理方法以及云管理平台 |
CN117828341A (zh) * | 2022-09-27 | 2024-04-05 | 华为技术有限公司 | 一种模型训练管理的方法、装置和系统 |
WO2024111809A1 (ko) * | 2022-11-25 | 2024-05-30 | 삼성전자 주식회사 | 인공신경망의 분할 추론을 통한 추론 작업 수행의 제어 방법 및 장치 |
CN116382599B (zh) * | 2023-06-07 | 2023-08-29 | 之江实验室 | 一种面向分布式集群的任务执行方法、装置、介质及设备 |
CN116501502B (zh) * | 2023-06-25 | 2023-09-05 | 电子科技大学 | 一种基于Pytorch框架的数据并行优化方法 |
CN116501505B (zh) * | 2023-06-27 | 2023-09-12 | 上海燧原科技有限公司 | 负载任务的数据流生成方法、装置、设备及介质 |
CN116755941B (zh) * | 2023-08-21 | 2024-01-09 | 之江实验室 | 一种节点故障感知的分布式模型训练的方法及装置 |
CN117992223A (zh) * | 2024-01-31 | 2024-05-07 | 三六零数字安全科技集团有限公司 | 模型训练方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188570A1 (en) * | 2017-12-20 | 2019-06-20 | Fujitsu Limited | Methods and apparatus for model parallelism in artificial neural networks |
JP2020068016A (ja) * | 2018-10-19 | 2020-04-30 | 富士通株式会社 | 畳み込みニューラルネットワークにおいてトレーニング手順を実行するための方法、装置、及びコンピュータプログラム |
JP2020522824A (ja) * | 2017-11-20 | 2020-07-30 | シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. | タスク並列処理方法、装置、システム、記憶媒体およびコンピュータ機器 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103052130B (zh) * | 2012-11-20 | 2015-08-05 | 南京邮电大学 | 一种基于粗糙集的无线多媒体传感器网络数据融合方法 |
CN102938731B (zh) * | 2012-11-22 | 2015-01-21 | 北京锐易特软件技术有限公司 | 一种基于代理缓存适配模型的交换集成装置及方法 |
CN108322937B (zh) * | 2017-01-18 | 2020-08-11 | 上海诺基亚贝尔股份有限公司 | 无线接入网中用于网络切片的资源分配方法和编排器 |
CN109993299B (zh) * | 2017-12-29 | 2024-02-27 | 中兴通讯股份有限公司 | 数据训练方法及装置、存储介质、电子装置 |
CN109062700A (zh) * | 2018-08-21 | 2018-12-21 | 郑州云海信息技术有限公司 | 一种基于分布式系统的资源管理方法及服务器 |
CN110889492B (zh) * | 2019-11-25 | 2022-03-08 | 北京百度网讯科技有限公司 | 用于训练深度学习模型的方法和装置 |
CN111064633B (zh) * | 2019-11-28 | 2021-09-24 | 国网甘肃省电力公司电力科学研究院 | 一种云边协同电力信息通信设备自动化测试资源分配方法 |
US11805015B2 (en) * | 2019-12-19 | 2023-10-31 | Sandvine Corporation | System and method for intent based network slice assignment |
CN111242282B (zh) * | 2020-01-09 | 2023-03-28 | 中山大学 | 基于端边云协同的深度学习模型训练加速方法 |
CN111310934B (zh) * | 2020-02-14 | 2023-10-17 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
CN111882060A (zh) * | 2020-07-20 | 2020-11-03 | 中国人民解放军国防科技大学 | 用于机器学习的单步延迟随机梯度下降训练方法 |
CN111950859B (zh) * | 2020-07-21 | 2021-10-01 | 北京航空航天大学 | 航空通信数据链动态适配方法、装置和存储介质 |
CN112037326B (zh) * | 2020-08-11 | 2023-09-05 | 北京梦之岩科技有限公司 | 一种精确描述地质体边界相邻空间属性状况的方法 |
CN112000473A (zh) * | 2020-08-12 | 2020-11-27 | 中国银联股份有限公司 | 深度学习模型的分布式训练方法以及装置 |
CN113592209A (zh) * | 2021-02-04 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种模型训练任务管理方法、装置、终端和存储介质 |
CN113128702A (zh) * | 2021-04-15 | 2021-07-16 | 杭州电子科技大学 | 一种基于强化学习的神经网络自适应分布式并行训练方法 |
CN113434302A (zh) * | 2021-08-12 | 2021-09-24 | 阿里云计算有限公司 | 分布式作业执行方法、主节点、系统、物理机及存储介质 |
CN113472597B (zh) * | 2021-08-16 | 2022-07-22 | 东北大学 | 分布式卷积神经网络细粒度的参数传输调度方法及装置 |
CN113656175B (zh) * | 2021-08-18 | 2022-07-08 | 北京百度网讯科技有限公司 | 基于分布式系统训练模型的方法及设备 |
-
2021
- 2021-12-06 CN CN202111471601.7A patent/CN114169427B/zh active Active
-
2022
- 2022-11-18 KR KR1020220155291A patent/KR20220161234A/ko unknown
- 2022-11-30 JP JP2022192338A patent/JP7430237B2/ja active Active
- 2022-12-01 US US18/060,705 patent/US20230169351A1/en active Pending
- 2022-12-05 EP EP22211341.7A patent/EP4191411A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020522824A (ja) * | 2017-11-20 | 2020-07-30 | シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. | タスク並列処理方法、装置、システム、記憶媒体およびコンピュータ機器 |
US20190188570A1 (en) * | 2017-12-20 | 2019-06-20 | Fujitsu Limited | Methods and apparatus for model parallelism in artificial neural networks |
JP2020068016A (ja) * | 2018-10-19 | 2020-04-30 | 富士通株式会社 | 畳み込みニューラルネットワークにおいてトレーニング手順を実行するための方法、装置、及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4191411A1 (en) | 2023-06-07 |
KR20220161234A (ko) | 2022-12-06 |
CN114169427B (zh) | 2022-10-04 |
US20230169351A1 (en) | 2023-06-01 |
JP7430237B2 (ja) | 2024-02-09 |
CN114169427A (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7430237B2 (ja) | エンドツーエンドの自己適応に基づく分散型トレーニング方法、装置、及び機器 | |
US10728091B2 (en) | Topology-aware provisioning of hardware accelerator resources in a distributed environment | |
JP7433373B2 (ja) | 深層学習モデルの分散トレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP7138126B2 (ja) | リソース配置を最適化するための適時性リソース移行 | |
US11216314B2 (en) | Dynamic reallocation of resources in accelerator-as-a-service computing environment | |
CN115269717B (zh) | 存储设备、分布式存储系统以及数据处理方法 | |
US8935496B2 (en) | Management method of virtual storage system and remote copy system | |
CN110427284B (zh) | 数据处理方法、分布式系统、计算机系统和介质 | |
WO2021254135A1 (zh) | 任务执行方法及存储设备 | |
US10826812B2 (en) | Multiple quorum witness | |
US11595474B2 (en) | Accelerating data replication using multicast and non-volatile memory enabled nodes | |
CN112199427A (zh) | 一种数据处理方法和系统 | |
JP2016504696A (ja) | 分散コンピューティングアーキテクチャ | |
KR20160121380A (ko) | 토러스 네트워크를 이용하는 분산 파일 시스템 및 토러스 네트워크를 이용하는 분산 파일 시스템의 구성 및 운영 방법 | |
CN113157459A (zh) | 一种基于云服务的负载信息处理方法及系统 | |
CN116302574B (zh) | 一种基于MapReduce的并发处理方法 | |
KR20240149371A (ko) | 클러스터에 기반한 훈련 방법, 장치, 전자 기기 및 저장 매체 | |
US10594620B1 (en) | Bit vector analysis for resource placement in a distributed system | |
EP4109255A1 (en) | Scheduling in a container orchestration system utilizing hardware topology hints | |
JP2010231295A (ja) | 解析システム | |
US20210096959A1 (en) | Loss free long distance active-active sites configuration | |
Cheriere | Towards Malleable Distributed Storage Systems: From Models to Practice | |
CN114942829A (zh) | 一种分布式存储时延优化方法、装置及介质 | |
CN117539597A (zh) | 任务处理方法、装置、电子设备及存储介质 | |
CN114598705A (zh) | 消息负载均衡方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7430237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |