JP2021128757A - タスク並列処理の実現方法、装置、機器及び媒体 - Google Patents
タスク並列処理の実現方法、装置、機器及び媒体 Download PDFInfo
- Publication number
- JP2021128757A JP2021128757A JP2020217476A JP2020217476A JP2021128757A JP 2021128757 A JP2021128757 A JP 2021128757A JP 2020217476 A JP2020217476 A JP 2020217476A JP 2020217476 A JP2020217476 A JP 2020217476A JP 2021128757 A JP2021128757 A JP 2021128757A
- Authority
- JP
- Japan
- Prior art keywords
- operator
- task
- parallel
- graph
- execution cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45562—Creating, deleting, cloning virtual machine instances
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
Abstract
【解決手段】方法は、ターゲットタスクの少なくとも1つの並列計算グラフを決定するステップと、演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも1つの演算子スケジューリングスキームを有する並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、並列計算グラフにおける演算子タスクをクラスタ内でスケジューリングして実行するステップと、を含む。
【選択図】図1
Description
複数の演算子タスクを含む、ターゲットタスクの少なくとも1つの並列計算グラフを決定するステップと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも1つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するステップと、を含む、タスク並列処理の実現方法を提供する。
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するステップと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するステップと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む。
前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングするステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、を含む。
前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するステップを含む。
前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリング特徴、及び前記クラスタのハードウェア特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測するステップと、
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む。
スクリーニングして決定した前記並列計算グラフ及び/又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行するステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、
前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算するステップと、
計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するステップと、をさらに含む。
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得するステップと、
各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するステップとをさらに含む。
前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも1つを含み、
前記演算子スケジューリングスキームのスケジューリングの特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも1つを含み、
前記クラスタのノードハードウェア特徴は、ノードの数、及びノードのハードウェア性能指標を含み、
前記総実行コストは、正規化処理されたデータである。
前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも1つの前記並列計算グラフを生成するステップを含む。
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる。
前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも1つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率の少なくとも1つを含む。
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定するステップと、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定するステップと、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定するステップと、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定するステップと、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするステップと、を含む。
複数の演算子タスクを含む、ターゲットタスクの少なくとも1つの並列計算グラフを決定するための計算グラフ決定モジュールと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも1つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスケジューリングスキームスクリーニングモジュールと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するためのタスクスケジューリング実行モジュールと、を備える、タスク並列処理の実現装置を提供する。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令が前記少なくとも1つのプロセッサにより実行されることで、前記少なくとも1つのプロセッサが本出願の任意の実施例によるタスク並列処理の実現方法を実行する、電子機器を提供する。
第5の態様では、本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、本出願の任意の実施例によるタスク並列処理の実現方法が実行される。
図1は、本出願の第1の実施例によるタスク並列処理の実現方法のフローチャートである。本実施例は、ターゲットタスクをクラスタ内で並列にスケジューリングして実行する過程に適用できる。ターゲットタスクは、大量の計算を必要とする任意のタスクであってもよく、例えば、機械学習モデルの訓練過程や実行過程は、一般に大量のデータ計算を必要とするため、ターゲットタスクとすることができる。本出願の実施例に係るクラスタは、複数のノードを含み、ノードは、典型的にはCPU、GPUなど、設定されたコンピューティング機能を実行できる電子機器である。クラスタ内のノードは、異なるハードウェア性能指標を有する機器であってもよく、ソフトウェア実行環境も異なってもよい。ノード間の通信は、一定のトポロジー関係によって実現される。クラスタは、一般に、ターゲットタスクを実行するために提供されるハードウェアプラットフォームであり、クラスタごとに異なるノードハードウェア及びソフトウェアを有することができる。
図2Aは、本出願の第2の実施例によるタスク並列処理の実現方法のフローチャートであり、本実施例は、上記の実施例に基づき、各演算子タスクのハードウェア実行コストを取得することで総実行コストを計算することにより、スキームをスクリーニングする。本実施例の方法は、具体的には、以下のステップを含む。
図3は、本出願の第3の実施例によるタスク並列処理の実現方法のフローチャートであり、本実施例は、上記の実施例に基づき、モデルに基づいて総実行コストを予測するための実現方式を提供する。本実施例の方法は、以下のステップを含む。
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得するステップと、
各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するステップと、をさらに含む。
この場合、予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後、スクリーニングして決定した前記並列計算グラフ及び/又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行するステップと、前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算するステップと、計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するステップと、をさらに含んでもよい。
図4Aは、本出願の第4の実施例によるタスク並列処理の実現方法のフローチャートである。図4Bは、本出願の第4の実施例が適用される実現過程の概略図である。本実施例は、上記の実施例に基づき、1つの選択可能な実施例のスキームを提供し、具体的には、以下のステップを含む。
図5は、本出願の第5の実施例によるタスク並列処理の実現装置の構造概略図であり、該装置500は、計算グラフ決定モジュール510と、スケジューリングスキームスクリーニングモジュール520と、タスクスケジューリング実行モジュール530とを備える。
スケジューリングスキームスクリーニングモジュール520は、前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも1つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するために用いられ、
タスクスケジューリング実行モジュール530は、決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するために用いられる。
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するための演算子コスト取得ユニットと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するための総コスト計算ユニットと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスキームスクリーニングユニットと、を備える。
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得し、各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するためのモデル訓練モジュールをさらに備える。
前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも1つを含み、
前記演算子スケジューリングスキームのスケジューリング特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも1つを含み、
前記クラスタのノードハードウェア特徴は、ノードの数、及びノードのハードウェア性能指標を含み、
前記総実行コストは、正規化処理されたデータである。
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる。
前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも1つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率、の少なくとも1つを含む。
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定し、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定し、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定し、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定し、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするために用いられる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、本出願の実施例のタスク並列処理の実現方法が実行される。
Claims (33)
- 複数の演算子タスクを含む、ターゲットタスクの少なくとも1つの並列計算グラフを決定するステップと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも1つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するステップと、を含む、
ことを特徴とするタスク並列処理の実現方法。 - クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するステップと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するステップと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む、
ことを特徴とする請求項1に記載のタスク並列処理の実現方法。 - 前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するステップは、
前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングするステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、を含む、
ことを特徴とする請求項2に記載のタスク並列処理の実現方法。 - 各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するステップは、
前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するステップを含む、
ことを特徴とする請求項2に記載のタスク並列処理の実現方法。 - クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、及び前記クラスタのハードウェアの特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測するステップと、
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む、
ことを特徴とする請求項1に記載のタスク並列処理の実現方法。 - 予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後に、
スクリーニングして決定した前記並列計算グラフ及び/又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行するステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、
前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算するステップと、
計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するステップと、をさらに含む、
ことを特徴とする請求項5に記載のタスク並列処理の実現方法。 - クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得するステップと、
各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するステップと、をさらに含む、
ことを特徴とする請求項5に記載のタスク並列処理の実現方法。 - 前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも1つを含み、
前記演算子スケジューリングスキームのスケジューリングの特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも1つを含み、
前記クラスタのノードハードウェアの特徴は、ノードの数、及びノードのハードウェア性能指標を含む、
前記総実行コストは、正規化処理されたデータである、
ことを特徴とする請求項5に記載のタスク並列処理の実現方法。 - 前記スケジューリングスキームモデルは、線形回帰モデルである、
ことを特徴とする請求項5に記載のタスク並列処理の実現方法。 - ターゲットタスクの少なくとも1つの並列計算グラフを決定するステップは、
前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも1つの前記並列計算グラフを生成するステップを含む、
ことを特徴とする請求項1から9のいずれかに記載のタスク並列処理の実現方法。 - 前記演算子タスクのタイプは、計算クラスと通信クラスとを少なくとも含み、
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる、
ことを特徴とする請求項1から9のいずれかに記載のタスク並列処理の実現方法。 - 前記ターゲットタスクは、機器学習モデルの訓練タスク又は運転タスクであり、前記計算クラスの演算子タスクは、数学的演算子、配列演算子、及びニューラルネットワークブロック演算子の少なくとも1つを含む、
ことを特徴とする請求項11に記載のタスク並列処理の実現方法。 - 前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも1つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率の少なくとも1つを含む、
ことを特徴とする請求項1から9のいずれかに記載のタスク並列処理の実現方法。 - 前記ハードウェア実行コストの種類が複数である場合、前記並列計算グラフの総実行コストが複数の種類の総実行コストの組合せ又は複数の種類の総実行コストの重み付け加算値である、
ことを特徴とする請求項13に記載のタスク並列処理の実現方法。 - クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定するステップと、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定するステップと、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定するステップと、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定するステップと、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするステップと、を含む、
ことを特徴とする請求項1から9のいずれかに記載のタスク並列処理の実現方法。 - 複数の演算子タスクを含む、ターゲットタスクの少なくとも1つの並列計算グラフを決定するための計算グラフ決定モジュールと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも1つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスケジューリングスキームスクリーニングモジュールと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するためのタスクスケジューリング実行モジュールと、を備える、
ことを特徴とするタスク並列処理の実現装置。 - 前記スケジューリングスキームスクリーニングモジュールは、
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するための演算子コスト取得ユニットと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するための総コスト計算ユニットと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスキームスクリーニングユニットと、を備える、
ことを特徴とする請求項16に記載のタスク並列処理の実現装置。 - 演算子コスト取得ユニットは、具体的には、
前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングし、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するために用いられる、
ことを特徴とする請求項17に記載のタスク並列処理の実現装置。 - 総コスト計算ユニットは、具体的には、
前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するために用いられる、
ことを特徴とする請求項17に記載のタスク並列処理の実現装置。 - 前記スケジューリングスキームスクリーニングモジュールは、具体的には、
前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、及び前記クラスタのハードウェアの特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測し、
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するために用いられる、
ことを特徴とする請求項16に記載のタスク並列処理の実現装置。 - 予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後に、スクリーニングして決定した前記並列計算グラフ及び/又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行し、前記演算子タスクがノードによって実行されるハードウェア実行コストを収集し、前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算し、計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するための二次スクリーニングモジュールをさらに備える、
ことを特徴とする請求項20に記載のタスク並列処理の実現装置。 - クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得し、各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するためのモデル訓練モジュールをさらに備える、
ことを特徴とする請求項20に記載のタスク並列処理の実現装置。 - 前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも1つを含み、
前記演算子スケジューリングスキームのスケジューリングの特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも1つを含み、
前記クラスタのノードハードウェアの特徴は、ノードの数、及びノードのハードウェア性能指標を含む、
前記総実行コストは、正規化処理されたデータである、
ことを特徴とする請求項20に記載のタスク並列処理の実現装置。 - 前記スケジューリングスキームモデルは、線形回帰モデルである、
ことを特徴とする請求項20に記載のタスク並列処理の実現装置。 - 計算グラフ決定モジュールは、具体的には、
前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも1つの前記並列計算グラフを生成するために用いられる、
ことを特徴とする請求項16から24のいずれかに記載のタスク並列処理の実現装置。 - 前記演算子タスクのタイプは、計算クラスと通信クラスとを少なくとも含み、
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる、
ことを特徴とする請求項16から24のいずれかに記載のタスク並列処理の実現装置。 - 前記ターゲットタスクは、機器学習モデルの訓練タスク又は運転タスクであり、前記計算クラスの演算子タスクは、数学的演算子、配列演算子、及びニューラルネットワークブロック演算子の少なくとも1つを含む、
ことを特徴とする請求項26に記載のタスク並列処理の実現装置。 - 前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも1つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率の少なくとも1つを含む、
ことを特徴とする請求項16から24のいずれかに記載のタスク並列処理の実現装置。 - 前記ハードウェア実行コストの種類が複数である場合、前記並列計算グラフの総実行コストが複数の種類の総実行コストの組合せ又は複数の種類の総実行コストの重み付け加算値である、
ことを特徴とする請求項28に記載のタスク並列処理の実現装置。 - スケジューリングスキームスクリーニングモジュールは、具体的には、
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定し、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定し、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定し、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定し、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするために用いられる、
ことを特徴とする請求項16から24のいずれかに記載のタスク並列処理の実現装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令が前記少なくとも1つのプロセッサにより実行されることで、前記少なくとも1つのプロセッサが請求項1から15のいずれかに記載のタスク並列処理の実現方法を実行する、
ことを特徴とする電子機器。 - コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が実行される場合、請求項1から15のいずれかに記載のタスク並列処理の実現方法が実行される、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1から15のいずれかに記載のタスク並列処理の実現方法が実行される、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010093670.8A CN111309479B (zh) | 2020-02-14 | 2020-02-14 | 一种任务并行处理的实现方法、装置、设备和介质 |
CN202010093670.8 | 2020-02-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021128757A true JP2021128757A (ja) | 2021-09-02 |
JP7094352B2 JP7094352B2 (ja) | 2022-07-01 |
Family
ID=71160098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020217476A Active JP7094352B2 (ja) | 2020-02-14 | 2020-12-25 | タスク並列処理の実現方法、装置、機器及び媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11954522B2 (ja) |
EP (1) | EP3866008A1 (ja) |
JP (1) | JP7094352B2 (ja) |
KR (1) | KR102482122B1 (ja) |
CN (1) | CN111309479B (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309479B (zh) * | 2020-02-14 | 2023-06-06 | 北京百度网讯科技有限公司 | 一种任务并行处理的实现方法、装置、设备和介质 |
CN111475684B (zh) * | 2020-06-29 | 2020-09-22 | 北京一流科技有限公司 | 数据处理网络系统及其计算图生成方法 |
CN111783952B (zh) * | 2020-06-30 | 2023-07-14 | 北京百度网讯科技有限公司 | 配置方法、装置、系统、电子设备以及存储介质 |
CN111899149A (zh) * | 2020-07-09 | 2020-11-06 | 浙江大华技术股份有限公司 | 基于算子融合的图像处理方法和装置、存储介质 |
CN111953614B (zh) * | 2020-08-07 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、处理设备及介质 |
CN112948079B (zh) * | 2021-02-18 | 2022-06-28 | 北京百度网讯科技有限公司 | 任务调度方法、装置、设备和计算机存储介质 |
US11941437B2 (en) * | 2021-06-25 | 2024-03-26 | Intel Corporation | Graph partitioning to exploit batch-level parallelism |
CN113449142A (zh) * | 2021-06-30 | 2021-09-28 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质及产品 |
CN113535400A (zh) * | 2021-07-19 | 2021-10-22 | 闻泰通讯股份有限公司 | 并行计算资源分配方法与装置、存储介质、终端设备 |
CN114003306B (zh) * | 2021-10-27 | 2024-03-15 | 上海商汤科技开发有限公司 | 一种显存优化方法、装置、设备及存储介质 |
CN114048030B (zh) * | 2021-11-09 | 2022-07-26 | 北京百度网讯科技有限公司 | 调度算子的方法和装置 |
CN114091688B (zh) * | 2021-11-25 | 2022-05-20 | 北京九章云极科技有限公司 | 一种计算资源获取方法、装置、电子设备和存储介质 |
WO2023096701A2 (en) * | 2021-11-29 | 2023-06-01 | University Of Southern California | Scheduling distributed computing based on computational and network architecture |
CN114819084B (zh) * | 2022-04-26 | 2024-03-01 | 北京百度网讯科技有限公司 | 模型推理方法、装置、设备及存储介质 |
CN114996008B (zh) * | 2022-05-30 | 2024-05-03 | 上海壁仞科技股份有限公司 | Ai计算图多后端协同计算方法及装置 |
CN115269016A (zh) * | 2022-09-27 | 2022-11-01 | 之江实验室 | 一种用于图计算的指令执行方法及装置 |
CN116467061B (zh) * | 2023-06-19 | 2023-09-19 | 之江实验室 | 一种任务执行的方法、装置、存储介质及电子设备 |
CN116501502B (zh) * | 2023-06-25 | 2023-09-05 | 电子科技大学 | 一种基于Pytorch框架的数据并行优化方法 |
CN117114091B (zh) * | 2023-10-25 | 2024-03-05 | 深圳开鸿数字产业发展有限公司 | 基于联邦学习的计算图处理方法、计算机设备和存储介质 |
CN117271100B (zh) * | 2023-11-21 | 2024-02-06 | 北京国科天迅科技股份有限公司 | 算法芯片集群调度方法、装置、计算机设备和存储介质 |
CN117437451B (zh) * | 2023-12-21 | 2024-04-16 | 芯瞳半导体技术(山东)有限公司 | 图像匹配方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018538607A (ja) * | 2015-10-28 | 2018-12-27 | グーグル エルエルシー | 計算グラフの処理 |
CN109669772A (zh) * | 2018-12-28 | 2019-04-23 | 第四范式(北京)技术有限公司 | 计算图的并行执行方法和设备 |
US20190205737A1 (en) * | 2017-12-30 | 2019-07-04 | Intel Corporation | Machine learning accelerator mechanism |
US20190266015A1 (en) * | 2018-02-27 | 2019-08-29 | Microsoft Technology Licensing, Llc | Deep neural network workload scheduling |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7110525B1 (en) * | 2001-06-25 | 2006-09-19 | Toby Heller | Agent training sensitive call routing system |
US8813141B2 (en) * | 2007-08-08 | 2014-08-19 | At&T Intellectual Properties I, L.P. | System and method of providing video content |
CN101777064A (zh) * | 2009-01-12 | 2010-07-14 | 鸿富锦精密工业(深圳)有限公司 | 图片搜索系统及方法 |
US8266289B2 (en) * | 2009-04-23 | 2012-09-11 | Microsoft Corporation | Concurrent data processing in a distributed system |
CN102043673B (zh) * | 2009-10-21 | 2015-06-03 | Sap欧洲公司 | 并行处理中执行任务的节点数量的优化选择系统及方法 |
KR102032367B1 (ko) * | 2012-10-05 | 2019-10-16 | 한국전자통신연구원 | 태스크 처리 장치 및 방법 |
KR101815148B1 (ko) * | 2014-02-27 | 2018-01-04 | 인텔 코포레이션 | 설정 가능한 컴퓨팅 자원 할당 기술 |
EP4202782A1 (en) * | 2015-11-09 | 2023-06-28 | Google LLC | Training neural networks represented as computational graphs |
US10877816B2 (en) | 2016-04-20 | 2020-12-29 | Samsung Electronics Co., Ltd. | Optimal task scheduler |
US10656970B2 (en) * | 2016-09-28 | 2020-05-19 | Futurewei Technologies, Inc. | Scheduling graph computing on heterogeneous processing resources based on energy efficiency |
US10776121B2 (en) * | 2017-05-10 | 2020-09-15 | Atlantic Technical Organization | System and method of execution map generation for schedule optimization of machine learning flows |
CN107885762B (zh) * | 2017-09-19 | 2021-06-11 | 北京百度网讯科技有限公司 | 智能大数据系统、提供智能大数据服务的方法和设备 |
KR20190054449A (ko) * | 2017-11-13 | 2019-05-22 | 한국과학기술원 | 이종 클러스터 환경에서 신경망 트레이닝 가속화를 위한 연산 노드 배치 기법 |
CN109993299B (zh) * | 2017-12-29 | 2024-02-27 | 中兴通讯股份有限公司 | 数据训练方法及装置、存储介质、电子装置 |
CN110018817A (zh) * | 2018-01-05 | 2019-07-16 | 中兴通讯股份有限公司 | 数据的分布式运行方法及装置、存储介质及处理器 |
US20200301898A1 (en) * | 2018-06-25 | 2020-09-24 | BigStream Solutions, Inc. | Systems and methods for accelerating data operations by utilizing dataflow subgraph templates |
US20200050971A1 (en) * | 2018-08-08 | 2020-02-13 | International Business Machines Corporation | Minibatch Parallel Machine Learning System Design |
US20200082273A1 (en) * | 2018-09-11 | 2020-03-12 | Apple Inc. | Compiling models for dedicated hardware |
US10754709B2 (en) * | 2018-09-26 | 2020-08-25 | Ciena Corporation | Scalable task scheduling systems and methods for cyclic interdependent tasks using semantic analysis |
US20200184366A1 (en) * | 2018-12-06 | 2020-06-11 | Fujitsu Limited | Scheduling task graph operations |
CN111324445B (zh) * | 2018-12-14 | 2024-04-02 | 中国科学院深圳先进技术研究院 | 一种任务调度模拟系统 |
US10949259B2 (en) * | 2018-12-28 | 2021-03-16 | Atlantic Technical Organization | System and method of scheduling and computing resource allocation optimization of machine learning flows |
US20200249998A1 (en) * | 2019-02-01 | 2020-08-06 | Alibaba Group Holding Limited | Scheduling computation graph heterogeneous computer system |
CN111859027A (zh) * | 2019-04-24 | 2020-10-30 | 华为技术有限公司 | 图计算方法及装置 |
US11556756B2 (en) * | 2019-04-25 | 2023-01-17 | Alibaba Group Holding Limited | Computation graph mapping in heterogeneous computer system |
US11593540B1 (en) * | 2019-05-31 | 2023-02-28 | The Mathworks, Inc. | Systems and methods for performing concurrency analysis in simulation environments |
CN110399222B (zh) * | 2019-07-25 | 2022-01-21 | 北京邮电大学 | Gpu集群深度学习任务并行化方法、装置及电子设备 |
CN110503195A (zh) * | 2019-08-14 | 2019-11-26 | 北京中科寒武纪科技有限公司 | 利用人工智能处理器执行任务的方法及其相关产品 |
CN110365799B (zh) * | 2019-08-16 | 2022-04-22 | 广东浪潮大数据研究有限公司 | 一种集群多节点调度方法、装置和计算机可读存储介质 |
CN110489223B (zh) * | 2019-08-26 | 2022-03-29 | 北京邮电大学 | 一种异构集群中任务调度方法、装置及电子设备 |
CN111309479B (zh) * | 2020-02-14 | 2023-06-06 | 北京百度网讯科技有限公司 | 一种任务并行处理的实现方法、装置、设备和介质 |
-
2020
- 2020-02-14 CN CN202010093670.8A patent/CN111309479B/zh active Active
- 2020-10-21 EP EP20202929.4A patent/EP3866008A1/en active Pending
- 2020-10-21 US US17/076,346 patent/US11954522B2/en active Active
- 2020-12-18 KR KR1020200178497A patent/KR102482122B1/ko active IP Right Grant
- 2020-12-25 JP JP2020217476A patent/JP7094352B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018538607A (ja) * | 2015-10-28 | 2018-12-27 | グーグル エルエルシー | 計算グラフの処理 |
US20190205737A1 (en) * | 2017-12-30 | 2019-07-04 | Intel Corporation | Machine learning accelerator mechanism |
US20190266015A1 (en) * | 2018-02-27 | 2019-08-29 | Microsoft Technology Licensing, Llc | Deep neural network workload scheduling |
CN109669772A (zh) * | 2018-12-28 | 2019-04-23 | 第四范式(北京)技术有限公司 | 计算图的并行执行方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
US11954522B2 (en) | 2024-04-09 |
US20210255896A1 (en) | 2021-08-19 |
JP7094352B2 (ja) | 2022-07-01 |
KR20210103928A (ko) | 2021-08-24 |
EP3866008A1 (en) | 2021-08-18 |
KR102482122B1 (ko) | 2022-12-27 |
CN111309479B (zh) | 2023-06-06 |
CN111309479A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7094352B2 (ja) | タスク並列処理の実現方法、装置、機器及び媒体 | |
US10067805B2 (en) | Technologies for offloading and on-loading data for processor/coprocessor arrangements | |
JP7214786B2 (ja) | 深層学習推論エンジンのスケジューリング方法、装置、機器及び媒体 | |
CN106528266B (zh) | 一种云计算系统中的资源动态调整方法及装置 | |
US20230091261A1 (en) | Orchestration and scheduling of services | |
Yi et al. | Efficient compute-intensive job allocation in data centers via deep reinforcement learning | |
Chen et al. | Deep learning research and development platform: Characterizing and scheduling with qos guarantees on gpu clusters | |
CN105359057A (zh) | 设置计算机参数使得电源工作在基于电源的功率效率峰值的范围内 | |
US11769125B2 (en) | Method and apparatus for processing transaction requests in blockchain, device and medium | |
US11157323B2 (en) | Multiple metric based load prediction and resource allocation in an active stream processing job | |
CN113110914A (zh) | 一种基于微服务架构的物联网平台构建方法 | |
CN113467944B (zh) | 面向复杂软件系统的资源部署装置及方法 | |
Michelogiannakis et al. | A case for intra-rack resource disaggregation in HPC | |
JP2022033688A (ja) | メモリアクセスリクエストスケジューリング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
JP2021168128A (ja) | 人材需要予測方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
Kaya et al. | Seamless computation offloading for mobile applications using an online learning algorithm | |
Gu et al. | Energy-Efficient GPU Clusters Scheduling for Deep Learning | |
US8838414B2 (en) | Determining when to create a prediction based on deltas of metric values | |
Pang et al. | Efficient Bare Metal Auto-scaling for NFV in Edge Computing | |
Yang et al. | Tias: Two-level information-agnostic job scheduling in gpu clusters | |
Zhao et al. | Power system low delay resource scheduling model based on edge computing node | |
CN118069302A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
Rahimi et al. | A systematic literature review on MapReduce scheduling methods | |
Chu et al. | Running Serverless Function on Resource Fragments in Data Center | |
CN116610327A (zh) | 一种大数据集群部署方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220502 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7094352 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |