JP2020518065A - ジョブサーバを使用した大規模な分散システムでの機械学習モデルのトレーニング - Google Patents
ジョブサーバを使用した大規模な分散システムでの機械学習モデルのトレーニング Download PDFInfo
- Publication number
- JP2020518065A JP2020518065A JP2019558354A JP2019558354A JP2020518065A JP 2020518065 A JP2020518065 A JP 2020518065A JP 2019558354 A JP2019558354 A JP 2019558354A JP 2019558354 A JP2019558354 A JP 2019558354A JP 2020518065 A JP2020518065 A JP 2020518065A
- Authority
- JP
- Japan
- Prior art keywords
- training
- job
- group
- compute
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5044—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1008—Server selection for load balancing based on parameters of servers, e.g. available memory or workload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
- H04L67/1051—Group master selection mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1061—Peer-to-peer [P2P] networks using node-based peer discovery mechanisms
- H04L67/1065—Discovery involving distributed pre-established resource-based relationships among peers, e.g. based on distributed hash tables [DHT]
Abstract
Description
ネットワーク120は、異なるコンポーネント間の接続を提供する。用語「ネットワーク」は、広く解釈されるべきである。イーサネット、インフィニバンド(InfiniBand)などの基準定義プロトコルを備えた公式ネットワークが含まれることができる。例えば、サーバーラック上のバックプレーン接続、リモートダイレクトメモリアクセス(remote direct memory access:RDMA)及び高性能コンピューティングファブリックフレームワークなど、コンポーネント間の他の種類の接続も含まれる。ネットワーク120は、異なる種類の接続を組み合わせることもできる。有線及び/または無線リンクを使用するローカルエリアネットワーク及び/またはワイドエリアネットワークの組み合わせを含んでもよい。コンポーネント110、130間で交換されるデータは、任意の適当なフォーマットを使用して示すことができる。ある実施例において、データ及び通信の全部または一部は暗号化されてもよい。
図2Cは、クライアントサーバアーキテクチャを備えるトレーニンググループ230のブロック図である。計算ノード230Sは、サーバとして機能し、計算ノード230C1-3は、クライアントとして機能する。サーバ230Sはトレーニングサンプルを提供する。クライアント230Cは、サーバ230Sからトレーニングサンプルを取得し、それらのトレーニングタスクを実行する。サーバ230Sは、さらに、パラメータの値をクライアント230Cに提供し、クライアント230Cからのトレーニング結果に基づいて、パラメータの値を更新するために使用することができる。
時間t3では、追加ノードR8-12がオンラインになる。これらのノードは、以前と同じように実行を続ける既存のジョブAまたはBに割り当てられない。時間t4では、トレーニングジョブCが順序付けられる。しかしながら、トレーニングジョブCは、6つの通常ノード130Rと1つの専用ノード130Sが必要であるが、5つの通常ノードR8-12のみがあり、可用な専用ノードはない。現在の可用な計算ノードは、ジョブCの要件に満たすのに十分ではない。ジョブサーバ110は、時間t3とt4との行の間の矢印で示されるように、ノードR2とS2をジョブAからジョブCに動的に再割り当てをする。これは、ジョブAの最小要件を依然として満足し、同時にリソースを解放することにより、ジョブCの最小要件を満足する。トレーニングジョブBのトレーニンググループは、余計な計算ノードがため、トレーニングジョブBは、依然として同じ計算ノードによって実行される。現在、可用なプールに計算ノードがない。
パラメータ一貫性モジュール640は、異なる計算ノードのからのトレーニング結果を集約する。例えば、1つの計算ノード上のトレーニングは、パラメータの更新値のセットを作成し、別の1つの計算ノード上のトレーニングは、別の1つの更新値のセットを作成することができる。パラメータ一貫性モジュール640は、これらの結果を単一の更新値のセットに組み合わせる。
100 コンピュータシステム
110 コンポーネント
115 ジョブ
120 ネットワーク
125A-D トレーニングジョブ
130 計算ノード
140 トレーニンググループ
400 コンピュータシステム
410 ジョブサーバ
440 表示ノード
450 バッファノード
500 ジョブサーバ
540計算ノードマネージャ
550 ジョブモニタ
560 表示モジュール
600 計算ノード
610 インターフェースモジュール
620 制御モジュール
630 トレーニングモジュール
634 検証エンジン
640 パラメータ一貫性モジュール
Claims (20)
- ジョブサーバを備えるコンピュータシステムにおいて複数の機械学習モデルをトレーニングするための方法であって、前記ジョブサーバはネットワークを介して複数の計算ノードと通信し、各機械学習モデルはパラメータのセットを含み、前記方法は、
前記ジョブサーバは、前記機械学習モデルをトレーニングするための複数のトレーニングジョブを受信することと、
前記ジョブサーバは、前記トレーニングジョブの現在の要件と前記計算ノードの現在の状態に基づいて、前記トレーニングジョブを1つ以上の計算ノードからなるトレーニンググループに割り当てることであって、前記ジョブサーバは、どの計算ノードがどのトレーニンググループに含まれるかを決定することと、
前記トレーニンググループが、前記トレーニンググループに割り当てられたトレーニングジョブを実行することと、を含み、
前記実行は、
前記機械学習モデルの前記パラメータの値を更新することと、及び
2つ以上の計算ノードを含む少なくとも1つのトレーニンググループについて、トレーニンググループの計算ノードの間に前記パラメータの更新値を交換して、交換された更新値を使用して前記トレーニングジョブを進めることとを含む、前記方法。 - 前記コンピュータシステムは、マスターワーカーアーキテクチャを有し、前記ジョブサーバは、各トレーニンググループのマスタとして動作し、各トレーニンググループは、前記ジョブサーバのワーカーとして動作する、
請求項1に記載の方法。 - 2つ以上の計算ノードを有する少なくとも1つのトレーニンググループ内にもマスターワーカーアーキテクチャを備え、前記トレーニンググループ中の1つの計算ノードは、前記トレーニンググループ中の残りの計算ノードのマスタとして動作し、前記残りの計算ノードは、この1つの計算ノードのワーカーとして動作する、
請求項2に記載の方法。 - 2つ以上の計算ノードを有する少なくとも1つのトレーニンググループ内には、ピアツーピアアーキテクチャを有する、
請求項2に記載の方法。 - 2つ以上の計算ノードを有する少なくとも1つのトレーニンググループにおいて、前記トレーニングジョブは、前記パラメータの初期値で開始し、前記パラメータの最終値で終了し、前記トレーニンググループ中の1つの計算ノードは、前記パラメータに対して前記初期値を前記最終値に更新され、格納される、
請求項2に記載の方法。 - 前記ジョブサーバは、前記トレーニングジョブの現在の要件と前記計算ノードの現在の状態に基づいて、トレーニンググループに含まれた計算ノードを変更することをさらに含む、
請求項1に記載の方法。 - 前記計算ノードの現在の状態に基づいて、前記トレーニングジョブをトレーニンググループに割り当てることは、前記計算ノードの現在の能力と前記計算ノードの現在の可用性に基づいて、前記トレーニングジョブをトレーニンググループに割り当てることを含む、
請求項1に記載の方法。 - 前記ジョブサーバは、前記計算ノードの計算能力及び/または可用性に基づいて、前記計算ノードのデータストレージ能力及び/または可用性に基づいて、及び/または、前記計算ノードの通信能力及び/または可用性に基づいて、前記トレーニングジョブをトレーニンググループに割り当てる、
請求項1に記載の方法。 - 前記トレーニンググループにおいて、前記ジョブサーバは、前記更新値が計算ノード間で交換されることを指定する、
請求項1に記載の方法。 - 前記前記トレーニングジョブは、前記パラメータの初期値で始まり、前記パラメータの遷移値によって実行され、前記パラメータの最終値によって終了し、前記パラメータの遷移値と最終値は、前記ジョブサーバではなくて、前記トレーニンググループ中の計算ノードによって決定される、
請求項1に記載の方法。 - 前記トレーニングジョブ中の少なくとも1つのトレーニングジョブに対して、前記ジョブサーバは、前記最終値にアクセスしない、
請求項10に記載の方法。 - 前記ジョブサーバは、前記トレーニンググループに割り当てられたトレーニングジョブを前記トレーニンググループが実行することを監視することをさらに含む、
請求項1に記載の方法。 - 前記ジョブサーバは、前記トレーニングジョブ中の少なくとも1つのトレーニングジョブのパラメータを視覚的に表示することをさらに含む、
請求項1に記載の方法。 - 前記ジョブサーバは、前記計算ノードの現在の状態及び/または前記計算ノードの現在の可用性を視覚的に表示することをさらに含む、
請求項1に記載の方法。 - 複数の機械学習モデルをトレーニングするための実行可能なコンピュータプログラム命令を格納する非一時的なコンピュータ可読記憶媒体であって、各機械学習モデルはパラメータのセットを含み、前記命令はプロセッサによって実行されて前記プロセッサに方法を実行させ、
前記方法は、
前記機械学習モデルをトレーニングするための複数のトレーニングジョブを受信することと、
前記トレーニングジョブの現在の要件と計算ノードの現在の状態に基づいて、前記トレーニングジョブを1つ以上の計算ノードからなるトレーニンググループに割り当てることと、
トレーニンググループが、前記トレーニンググループに割り当てられたトレーニングジョブを実行することと、を含み、
前記実行は、
前記機械学習モデルの前記パラメータの値を更新することと、及び
2つ以上の計算ノードを含む少なくとも1つのトレーニンググループについて、トレーニンググループの計算ノードの間に前記パラメータの更新値を交換して、交換された更新値を使用して前記トレーニングジョブを進めることと、を含む、前記非一時的なコンピュータ可読記憶媒体。 - 複数の機械学習モデルをトレーニングするためのコンピュータシステムであって、各機械学習モデルはパラメータのセットを含み、前記コンピュータシステムは、
ジョブサーバと、及び
ジョブサーバと通信する複数の計算ノードとを備え、
前記ジョブサーバは、前記機械学習モデルをトレーニングするための複数のトレーニングジョブを受信し、前記ジョブサーバが、前記トレーニングジョブの現在の要件と前記計算ノードの現在の状態に基づいて、前記トレーニングジョブを1つ以上の計算ノードからなるトレーニンググループに割り当てて、そして、前記ジョブサーバは、トレーニンググループに含まれた計算ノードを決定し、
前記トレーニンググループが、前記トレーニンググループに割り当てられたトレーニングジョブを実行し、前記実行は、前記機械学習モデルの前記パラメータの値を更新することと、及び、2つ以上の計算ノードを含む少なくとも1つのトレーニンググループについて、トレーニンググループの計算ノードの間に前記パラメータの更新値を交換し、交換された更新値を使用して前記トレーニングジョブを進めることとを含む、前記コンピュータシステム。 - 前記ジョブサーバ及び前記複数の計算ノードは、合計で少なくとも1000個のプロセッサユニットを備える、
請求項16に記載のコンピュータシステム。 - 前記コンピュータシステムはさらに、表示ノードを含み、
前記表示ノードは、前記ジョブサーバと通信し、前記トレーニングジョブ中の少なくとも1つのトレーニングジョブのパラメータを視覚的に表示する、
請求項16に記載のコンピュータシステム。 - 前記コンピュータシステムはさらに、バッファノードを備え、
前記バッファノードは、前記計算ノードと通信し、前記計算ノードによって実行される次のトレーニングジョブで使用されるデータをバッファリングする、
請求項16に記載のコンピュータシステム。 - 前記トレーニンググループ中の前記2つ以上の計算ノードは、前記計算ノードによって共有されるメモリを含み、前記計算ノードは、前記共有メモリ中の前記更新値の位置を交換することにより、前記パラメータの前記更新値を交換する、
請求項16に記載のコンピュータシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/497,749 | 2017-04-26 | ||
US15/497,749 US20180314971A1 (en) | 2017-04-26 | 2017-04-26 | Training Machine Learning Models On A Large-Scale Distributed System Using A Job Server |
PCT/CN2018/082970 WO2018196631A1 (en) | 2017-04-26 | 2018-04-13 | Training machine learning models on a large-scale distributed system using a job server |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020518065A true JP2020518065A (ja) | 2020-06-18 |
JP6894532B2 JP6894532B2 (ja) | 2021-06-30 |
Family
ID=63916703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019558354A Active JP6894532B2 (ja) | 2017-04-26 | 2018-04-13 | ジョブサーバを使用した大規模な分散システムでの機械学習モデルのトレーニング |
Country Status (6)
Country | Link |
---|---|
US (1) | US20180314971A1 (ja) |
EP (1) | EP3593247B1 (ja) |
JP (1) | JP6894532B2 (ja) |
KR (1) | KR102300984B1 (ja) |
CN (1) | CN110462591A (ja) |
WO (1) | WO2018196631A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022017588A (ja) * | 2021-03-10 | 2022-01-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 深層学習フレームワークのトレーニング方法、装置及び記憶媒体 |
JP2022137193A (ja) * | 2021-10-28 | 2022-09-21 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 深層学習モデルの分散トレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
JP2023171248A (ja) * | 2022-05-18 | 2023-12-01 | 浙江工商大学 | ディープラーニングに基づく分散式異種データの処理方法、装置及び設備 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11288575B2 (en) * | 2017-05-18 | 2022-03-29 | Microsoft Technology Licensing, Llc | Asynchronous neural network training |
US10235625B1 (en) * | 2018-02-09 | 2019-03-19 | Capital One Services, Llc | Automatically scaling neural networks based on load |
CN110389816B (zh) * | 2018-04-20 | 2023-05-23 | 伊姆西Ip控股有限责任公司 | 用于资源调度的方法、装置以及计算机可读介质 |
CN110554912B (zh) * | 2018-05-31 | 2022-05-20 | 杭州海康威视数字技术股份有限公司 | 调度设备执行任务的方法和装置 |
US20200090000A1 (en) * | 2018-09-18 | 2020-03-19 | Microsoft Technology Licensing, Llc | Progress Portal for Synthetic Data Tasks |
EP3895009A4 (en) * | 2018-12-13 | 2022-06-22 | Telefonaktiebolaget Lm Ericsson (Publ) | METHOD AND MACHINE LEARNING AGENT FOR PERFORMING MACHINE LEARNING IN AN EDGE CLOUD |
US11941493B2 (en) | 2019-02-27 | 2024-03-26 | International Business Machines Corporation | Discovering and resolving training conflicts in machine learning systems |
KR102096737B1 (ko) * | 2019-03-28 | 2020-04-02 | 한국과학기술원 | 저밀도 패리티 검사 부호를 활용한 고장 방지 능력을 갖춘 분산 기계 학습 방법 및 그 장치 |
KR102648599B1 (ko) * | 2019-04-09 | 2024-03-15 | 에이에스엠엘 네델란즈 비.브이. | 설비 위치들 사이에서 예측 모델을 조절하기 위한 시스템 및 방법 |
US11886960B2 (en) | 2019-05-07 | 2024-01-30 | International Business Machines Corporation | Elastic training of machine learning models via re-partitioning based on feedback from the training algorithm |
US11573803B2 (en) | 2019-05-07 | 2023-02-07 | International Business Machines Corporation | Parallel training of machine learning models |
CN110728317A (zh) * | 2019-09-30 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 决策树模型的训练方法、系统、存储介质及预测方法 |
US20210097429A1 (en) * | 2019-09-30 | 2021-04-01 | Facebook, Inc. | Machine learning training resource management |
WO2021101945A1 (en) * | 2019-11-19 | 2021-05-27 | Captiv8, Inc. | Systems and methods for identifying, tracking, and managing a plurality of social network users having predefined characteristcs |
US11710068B2 (en) * | 2019-11-24 | 2023-07-25 | International Business Machines Corporation | Labeling a dataset |
CN112884157B (zh) * | 2019-11-29 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 一种模型训练方法、模型训练节点及参数服务器 |
US11379718B2 (en) | 2019-12-10 | 2022-07-05 | International Business Machines Corporation | Ground truth quality for machine learning models |
CN111027713B (zh) * | 2019-12-10 | 2022-09-02 | 支付宝(杭州)信息技术有限公司 | 共享机器学习系统及方法 |
CN111143308B (zh) * | 2019-12-26 | 2023-04-28 | 许昌中科森尼瑞技术有限公司 | 基于联邦学习的高低压电动机数据处理方法、系统及装置 |
CN111241745A (zh) * | 2020-01-09 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 逐步模型选择方法、设备及可读存储介质 |
CN111241746B (zh) * | 2020-01-09 | 2024-01-26 | 深圳前海微众银行股份有限公司 | 向前模型选择方法、设备和可读存储介质 |
US11249861B2 (en) | 2020-02-06 | 2022-02-15 | Bank Of America Corporation | Multi-layered disaster recovery manager |
WO2021220616A1 (ja) * | 2020-04-30 | 2021-11-04 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに分散学習システム |
US11593714B2 (en) * | 2020-05-06 | 2023-02-28 | Citrix Systems, Inc. | Adaptive anomaly detector |
CN111722923A (zh) * | 2020-05-29 | 2020-09-29 | 浪潮电子信息产业股份有限公司 | 一种异构资源的调用方法、装置和计算机可读存储介质 |
US11456917B2 (en) * | 2020-06-01 | 2022-09-27 | Cisco Technology, Inc. | Analyzing deployed networks with respect to network solutions |
KR102163402B1 (ko) | 2020-06-15 | 2020-10-08 | 주식회사 딥노이드 | 멀티 노드와 멀티 gpu를 이용한 분산 학습 시스템 및 방법 |
US11651293B2 (en) | 2020-07-22 | 2023-05-16 | International Business Machines Corporation | Hierarchical decentralized distributed deep learning training |
CN111917579A (zh) * | 2020-07-30 | 2020-11-10 | 云知声智能科技股份有限公司 | 分布式训练方法、装置、设备和存储介质 |
US20220287104A1 (en) * | 2021-03-05 | 2022-09-08 | Samsung Electronics Co., Ltd. | Method and apparatus for support of machine learning or artificial intelligence techniques in communication systems |
CN112966601A (zh) * | 2021-03-05 | 2021-06-15 | 上海深硅信息科技有限公司 | 一种人工智能师徒半监督学习的方法 |
US20220374327A1 (en) * | 2021-04-29 | 2022-11-24 | International Business Machines Corporation | Fair simultaneous comparison of parallel machine learning models |
JPWO2023276382A1 (ja) * | 2021-07-01 | 2023-01-05 | ||
CN114139723A (zh) * | 2021-11-30 | 2022-03-04 | 支付宝(杭州)信息技术有限公司 | 用于深度学习模型训练的方法、装置及系统 |
US20230214837A1 (en) * | 2022-01-04 | 2023-07-06 | Fidelity Information Services, Llc. | Methods, systems, and devices for machine learning-based contextual engagement decision engine |
KR20240003537A (ko) * | 2022-07-01 | 2024-01-09 | 몬드리안에이아이 주식회사 | 공유자원 기반 원격 분산 학습 시스템 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007533034A (ja) * | 2004-04-15 | 2007-11-15 | レイセオン カンパニー | Hpcクラスタを管理するためのグラフィカル・ユーザ・インタフェース |
US20130290223A1 (en) * | 2012-04-27 | 2013-10-31 | Yahoo! Inc. | Method and system for distributed machine learning |
JP2013228859A (ja) * | 2012-04-25 | 2013-11-07 | Toyota Motor Corp | プラント制御装置 |
US20150379424A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Machine learning service |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596788B1 (en) * | 2004-05-11 | 2009-09-29 | Platform Computing Corporation | Support of non-trivial scheduling policies along with topological properties |
CN102073546B (zh) * | 2010-12-13 | 2013-07-10 | 北京航空航天大学 | 一种云计算环境中分布式计算模式下的任务动态调度方法 |
CN102523249A (zh) * | 2011-11-24 | 2012-06-27 | 哈尔滨工业大学 | 基于Web的分布式远程仿真系统及仿真方法 |
CN104714852B (zh) * | 2015-03-17 | 2018-05-22 | 华中科技大学 | 一种适用于分布式机器学习的参数同步优化方法及其系统 |
CN106156810B (zh) * | 2015-04-26 | 2019-12-03 | 阿里巴巴集团控股有限公司 | 通用机器学习算法模型训练方法、系统和计算节点 |
CN105069703B (zh) * | 2015-08-10 | 2018-08-28 | 国家电网公司 | 一种电网海量数据管理方法 |
CN105575119B (zh) * | 2015-12-29 | 2018-06-19 | 大连楼兰科技股份有限公司 | 路况气候深度学习及识别方法和装置 |
-
2017
- 2017-04-26 US US15/497,749 patent/US20180314971A1/en not_active Abandoned
-
2018
- 2018-04-13 KR KR1020197032039A patent/KR102300984B1/ko active IP Right Grant
- 2018-04-13 JP JP2019558354A patent/JP6894532B2/ja active Active
- 2018-04-13 WO PCT/CN2018/082970 patent/WO2018196631A1/en unknown
- 2018-04-13 CN CN201880018968.3A patent/CN110462591A/zh active Pending
- 2018-04-13 EP EP18790997.3A patent/EP3593247B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007533034A (ja) * | 2004-04-15 | 2007-11-15 | レイセオン カンパニー | Hpcクラスタを管理するためのグラフィカル・ユーザ・インタフェース |
JP2013228859A (ja) * | 2012-04-25 | 2013-11-07 | Toyota Motor Corp | プラント制御装置 |
US20130290223A1 (en) * | 2012-04-27 | 2013-10-31 | Yahoo! Inc. | Method and system for distributed machine learning |
US20150379424A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Machine learning service |
Non-Patent Citations (1)
Title |
---|
MARTIN ABADI, ET AL.: "TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems", [ONLINE], JPN7020004088, 16 March 2016 (2016-03-16), ISSN: 0004410059 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022017588A (ja) * | 2021-03-10 | 2022-01-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 深層学習フレームワークのトレーニング方法、装置及び記憶媒体 |
JP2022137193A (ja) * | 2021-10-28 | 2022-09-21 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 深層学習モデルの分散トレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
JP7433373B2 (ja) | 2021-10-28 | 2024-02-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 深層学習モデルの分散トレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
JP2023171248A (ja) * | 2022-05-18 | 2023-12-01 | 浙江工商大学 | ディープラーニングに基づく分散式異種データの処理方法、装置及び設備 |
JP7408042B2 (ja) | 2022-05-18 | 2024-01-05 | 浙江工商大学 | ディープラーニングに基づく分散式異種データの処理方法、装置及び設備 |
Also Published As
Publication number | Publication date |
---|---|
EP3593247B1 (en) | 2022-11-16 |
EP3593247A4 (en) | 2020-05-13 |
EP3593247A1 (en) | 2020-01-15 |
KR20190132475A (ko) | 2019-11-27 |
CN110462591A (zh) | 2019-11-15 |
KR102300984B1 (ko) | 2021-09-09 |
JP6894532B2 (ja) | 2021-06-30 |
US20180314971A1 (en) | 2018-11-01 |
WO2018196631A1 (en) | 2018-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6894532B2 (ja) | ジョブサーバを使用した大規模な分散システムでの機械学習モデルのトレーニング | |
US11507430B2 (en) | Accelerated resource allocation techniques | |
CN110301128B (zh) | 基于学习的资源管理数据中心云架构的实现方法 | |
US8612987B2 (en) | Prediction-based resource matching for grid environments | |
US10761897B2 (en) | Predictive model-based intelligent system for automatically scaling and managing provisioned computing resources | |
US20200174844A1 (en) | System and method for resource partitioning in distributed computing | |
Yang et al. | Intermediate data caching optimization for multi-stage and parallel big data frameworks | |
US20180246765A1 (en) | System and method for scheduling jobs in distributed datacenters | |
KR102199275B1 (ko) | 분산 컴퓨팅 시스템에서의 적응적 리소스 관리 | |
US11409576B2 (en) | Dynamic distribution of a workload processing pipeline on a computing infrastructure | |
CN111984385A (zh) | 基于装饰bim模型的任务调度方法和任务调度装置 | |
US20230136661A1 (en) | Task scheduling for machine-learning workloads | |
JP2016042284A (ja) | 並列計算機システム、管理装置、並列計算機システムの制御方法及び管理装置の制御プログラム | |
CN116263701A (zh) | 算力网络任务调度方法、装置、计算机设备及存储介质 | |
US20220300323A1 (en) | Job Scheduling Method and Job Scheduling Apparatus | |
US11521042B2 (en) | System and method to dynamically and automatically sharing resources of coprocessor AI accelerators | |
Razavi et al. | FA2: Fast, accurate autoscaling for serving deep learning inference with SLA guarantees | |
Niu et al. | An adaptive efficiency-fairness meta-scheduler for data-intensive computing | |
Jena et al. | Improving quality of service constraints of Cloud data centers | |
CN110427217B (zh) | 基于内容的发布订阅系统匹配算法轻量级并行方法和系统 | |
Cano et al. | ADARES: adaptive resource management for virtual machines | |
Manikonda et al. | A Novel Method for Dynamic Scheduling for Stochastic Edge-Cloud Computing Environments | |
Tairin et al. | Embracing Uncertainty for Equity in Resource Allocation in ML Training | |
US20230007856A1 (en) | Real-time dynamic container optimization computing platform | |
US20230185622A1 (en) | Graph Execution Engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6894532 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |