JP2021128757A

JP2021128757A - タスク並列処理の実現方法、装置、機器及び媒体

Info

Publication number: JP2021128757A
Application number: JP2020217476A
Authority: JP
Inventors: ダーシァン・ドン; Daxiang Dong; ハイフォン・ワン; Haifeng Wang; ディエンハイ・ユー; Dianhai Yu; イェンジュン・マー; Yanjun Ma
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-14
Filing date: 2020-12-25
Publication date: 2021-09-02
Anticipated expiration: 2040-12-25
Also published as: US11954522B2; US20210255896A1; JP7094352B2; KR20210103928A; EP3866008A1; KR102482122B1; CN111309479B; CN111309479A

Abstract

【課題】ディープラーニングモデル計算過程の並列処理効率を向上する方法、装置、機器及び媒体を提供する。
【解決手段】方法は、ターゲットタスクの少なくとも１つの並列計算グラフを決定するステップと、演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも１つの演算子スケジューリングスキームを有する並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、並列計算グラフにおける演算子タスクをクラスタ内でスケジューリングして実行するステップと、を含む。
【選択図】図１

Description

本出願の実施例は、コンピュータ技術に関し、具体的には人工知能技術及び並列処理技術に関する。

人工知能技術の発展に伴い、ディープラーニング技術がますます使用されている。ディープラーニング技術には、典型的に、ディープラーニングモデルの訓練過程、及び訓練後のディープラーニングモデルの応用過程が含まれている。

現在、ディープラーニングモデル訓練過程及び応用過程の計算量が増加するにつれて、時間を短縮するために、並列処理が徐々に採用されている。すなわち、ディープラーニングモデルの訓練又は応用タスクは、並列処理を行うために、複数のノードで構成されるクラスタに割り当てられる。例えば、ＧＰＵマルチマシンマルチカードを用いて並行訓練を行う。

従来技術において、いかにディープラーニングモデル計算過程の並列処理効率を向上できるかは、現在の研究のホットスポットの１つとなっている。

本出願の実施例は、クラスタにおけるタスクの並列処理効率を向上できるタスク並列処理の実現方法、装置、機器及び媒体を提供する。

第１の態様では、本出願の実施例は、
複数の演算子タスクを含む、ターゲットタスクの少なくとも１つの並列計算グラフを決定するステップと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも１つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するステップと、を含む、タスク並列処理の実現方法を提供する。

本出願の実施例の技術案は、ターゲットタスクに並列計算グラフ及び演算子スケジューリングスキームを決定する際に、クラスタにおける演算子タスクのハードウェア実行コストをスクリーニング根拠として導入して考慮することにより、ターゲットタスクの実行を異なる環境状況のクラスタにより適合させ、最適な並列効率を達成することができる。

任意的には、クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するステップと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するステップと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む。

上記出願の１つの選択可能な実施形態では、単一の演算子タスクのハードウェア実行コストを取得して、総実行コストを計算して決定することにより、クラスタにおける並列計算グラフ及び演算子スケジューリングスキームの総実行コストを正確に取得でき、スクリーニング効果がより正確になる。

任意的には、前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するステップは、
前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングするステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、を含む。

任意的には、各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するステップは、
前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するステップを含む。

任意的には、クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリング特徴、及び前記クラスタのハードウェア特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測するステップと、
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む。

上記出願の１つの選択可能な実施形態では、並列計算度、演算子スケジューリングスキーム、及びクラスタの各態様の特徴、及び対応する総実行コストに対してモデル学習を行うことにより、クラスタで実測計算してハードウェア実行コストを収集することなく、モデルに基づいて総実行コストを予測することができ、それにより、リソース占有を減少させ、スケジューリングスキームのスクリーニング効率を向上させることができる。

任意的には、予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後に、
スクリーニングして決定した前記並列計算グラフ及び／又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行するステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、
前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算するステップと、
計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するステップと、をさらに含む。

上記出願の１つの選択可能な実施形態では、モデル予測及び実測計算を組み合わせて採用し、スケジューリングスキームのスクリーニング効率及びリソースの占有状況を兼ねる。

任意的には、該方法は、
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得するステップと、
各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するステップとをさらに含む。

任意的には、
前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも１つを含み、
前記演算子スケジューリングスキームのスケジューリングの特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも１つを含み、
前記クラスタのノードハードウェア特徴は、ノードの数、及びノードのハードウェア性能指標を含み、
前記総実行コストは、正規化処理されたデータである。

任意的には、前記スケジューリングスキームモデルは、線形回帰モデルである。

任意的には、ターゲットタスクの少なくとも１つの並列計算グラフを決定するステップは、
前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも１つの前記並列計算グラフを生成するステップを含む。

任意的には、前記演算子タスクのタイプは、計算クラスと通信クラスとを少なくとも含み、
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる。

上記出願の１つの選択可能な実施形態では、ターゲットタスクは、好ましくは、機器学習類タスクであり、本出願の実施例の利点は、ディープラーニングの分野で特に顕著である。ディープラーニングの分野におけるターゲットタスクは、一般には、機械学習モデルの訓練又は実際のアプリケーションの実行であり、ターゲットタスクの演算子タスクは多く、かつ関係が複雑であり、実行可能なスケジューリングスキームが複数あり、本願の実施例の技術案によれば、ディープラーニングのフレームワークが異なるハードウェア環境のクラスタで自動的に最適に近い訓練速度を得ることができる。

任意的には、前記ターゲットタスクは、機器学習モデルの訓練タスク又は運転タスクであり、前記計算クラスの演算子タスクは、数学的演算子、配列演算子、及びニューラルネットワークブロック演算子の少なくとも１つを含む。

任意的には、
前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも１つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率の少なくとも１つを含む。

任意的には、前記ハードウェア実行コストの種類が複数である場合、前記並列計算グラフの総実行コストが複数の種類の総実行コストの組合せ又は複数の種類の総実行コストの重み付け加算値である。

上記出願の１つの選択可能な実施形態では、ハードウェア実行コストの種類が複数であってもよく、スケジューリングスキームの総実行コストを複数の次元から決定でき、それにより、異なるニーズに応じてスケジューリングスキームをスクリーニングすることができる。

任意的には、クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定するステップと、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定するステップと、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定するステップと、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定するステップと、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするステップと、を含む。

第２の態様では、本出願の実施例は、
複数の演算子タスクを含む、ターゲットタスクの少なくとも１つの並列計算グラフを決定するための計算グラフ決定モジュールと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも１つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスケジューリングスキームスクリーニングモジュールと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するためのタスクスケジューリング実行モジュールと、を備える、タスク並列処理の実現装置を提供する。

第３の態様では、本出願の実施例は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令が前記少なくとも１つのプロセッサにより実行されることで、前記少なくとも１つのプロセッサが本出願の任意の実施例によるタスク並列処理の実現方法を実行する、電子機器を提供する。

第４の態様では、本出願の実施例は、コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令が実行される場合、本出願の任意の実施例によるタスク並列処理の実現方法が実行される。
第５の態様では、本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、本出願の任意の実施例によるタスク並列処理の実現方法が実行される。

上記の選択可能な形態が有する他の効果については、具体的な実施例を組み合わせて以下に説明する。

図面は、本技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の第１の実施例によるタスク並列処理の実現方法のフローチャートである。本出願の第２の実施例によるタスク並列処理の実現方法のフローチャートである。本出願の第２の実施例が適用される並列計算グラフである。本出願の第３の実施例によるタスク並列処理の実現方法のフローチャートである。本出願の第４の実施例によるタスク並列処理の実現方法のフローチャートである。本出願の第４の実施例が適用される実現過程の概略図である。本出願の第５の実施例によるタスク並列処理の実現装置の構造概略図である。本出願の実施例のタスク並列処理の実現方法を実現するための電子機器のブロック図である。

以下、本出願の例示的な実施例は、図面を参照して説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでおり、それらは、単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構成の説明を省略する。

第１の実施例
図１は、本出願の第１の実施例によるタスク並列処理の実現方法のフローチャートである。本実施例は、ターゲットタスクをクラスタ内で並列にスケジューリングして実行する過程に適用できる。ターゲットタスクは、大量の計算を必要とする任意のタスクであってもよく、例えば、機械学習モデルの訓練過程や実行過程は、一般に大量のデータ計算を必要とするため、ターゲットタスクとすることができる。本出願の実施例に係るクラスタは、複数のノードを含み、ノードは、典型的にはＣＰＵ、ＧＰＵなど、設定されたコンピューティング機能を実行できる電子機器である。クラスタ内のノードは、異なるハードウェア性能指標を有する機器であってもよく、ソフトウェア実行環境も異なってもよい。ノード間の通信は、一定のトポロジー関係によって実現される。クラスタは、一般に、ターゲットタスクを実行するために提供されるハードウェアプラットフォームであり、クラスタごとに異なるノードハードウェア及びソフトウェアを有することができる。

本実施例によるタスク並列処理の実現方法は、以下のステップを含む。

Ｓ１１０：複数の演算子タスクを含む、ターゲットタスクの少なくとも１つの並列計算グラフを決定する。

上記操作では、並列計算グラフは、ターゲットタスクが実行するトポロジー関係の要件を満たす複数の演算子タスクを含むグラフ構造である。演算子タスクは、独立してクラスタ内のノードにスケジューリングして実行させ得るタスクである。演算子タスクには複数のタイプがあり、典型的には計算クラスと通信クラスに分類される。前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる。もちろん、異なるターゲットタスクに関しては、他の所望のタイプの演算子タスクがあり得ることは理解できる。

ターゲットタスクが機械学習モデルの訓練タスク又は実行タスクである場合を例にして、それに含まれる計算クラスの演算子タスクは、数学的演算子、配列演算子、及びニューラルネットワークブロック演算子のうちの少なくとも１つを含むことができる。数学的演算子は、具体的には、減算、加算、除算、及び勾配計算などの演算子を含むことができ、配列演算は、例えば、連結、スプライシング、分割、順序付けなどの演算子を含み、ニューラルネットワークブロック演算子は、例えば、分類器（ｓｏｆｔｍａｘ）、正規化（ｓｉｇｍｏｉｄ）、活性化関数（ＲｅＬＵ）や畳み込みなどの演算子を含む。通信クラスの演算子タスクは、通信方式、通信後の処理アルゴリズムによって異なるグラスに細分化することができる。

演算子タスク間のエッジ関係は、演算子タスク間のデータの流れを反映する。例えば、Ａ演算子タスクからＢ演算子タスクへの指示は、Ａ演算子タスクのデータ計算結果が入力データとしてＢ演算子タスクに出力されることを示す。

ターゲットタスクについて、具体的には、前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも１つの前記並列計算グラフを生成することができる。

通常、スタンドアロン計算グラフに関しては、マルチノードトポロジ規則を満たす並列計算グラフが複数存在することがある。

Ｓ１２０：前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも１つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定する。

いわゆる演算子スケジューリングスキームとは、設定された並列計算グラフに対して、設定された順序で演算子タスクを各ノードに割り当てて並列に実行させる具体的なスキームであり、スケジューリング順序を主に表している。上記操作では、ターゲットタスクに対して並列計算グラフ及び演算子スケジューリングスキームを決定する際に、クラスタにおける演算子タスクのハードウェア実行コストをスクリーニング根拠として導入して考慮する。

ハードウェア実行コストは、特定のハードウェア状態のノードにおいて特定の演算子タスクが実行されるコストを反映しており、実測収集や推定予測などの様々な手段で取得することができる。演算子タスクのハードウェア実行コストをいかに具体的に並列計算グラフ及びスケジューリングスキームのスクリーニングに使用するかについて、本出願の後続の実施例でそれぞれ詳細に説明する。

Ｓ１３０：決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行する。

ハードウェア実行コストに基づいてスクリーニングして決定した並列計算グラフ及び演算子スケジューリングスキームは、好ましくかつ並列効率の高いスキームである。好ましい並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記クラスタにおけるターゲットタスクの計算過程を正式に実行することができる。

本出願の実施例の技術案は、ターゲットタスクに対して並列計算グラフ及び演算子スケジューリングスキームを決定する際に、クラスタにおける演算子タスクのハードウェア実行コストをスクリーニング根拠として導入して考慮することにより、ターゲットタスクの実行を異なる環境状況のクラスタによりよく適合させ、最適な並列効率を達成することができる。

並列計算グラフのスケジューリング順序優劣、クラスタの負荷能力のみを考慮したスキームに比べて、クラスタノードの状態、例えばノードの計算チップ性能、ノード間の通信状態などに着目しないと、ターゲットタスク全体の実行時間に影響を与える可能性がある。例えば、ある演算子タスクの入力データが、前の入次数演算子タスクの出力データを使用する必要があり、前の入次数演算子タスクが、計算性能の悪いノードにちょうどスケジューリングされており、計算時間が長くなる場合、後続の演算子タスクが待たなければならず、その結果、全体としてターゲットタスクの計算時間を長くすることになる。

本出願の実施例の技術案を使用すると、クラスタのノードハードウェア状態をさらに考慮することができ、それにより、並列度を高め、ハードウェアリソースの利用を最適化させることができる。

第２の実施例
図２Ａは、本出願の第２の実施例によるタスク並列処理の実現方法のフローチャートであり、本実施例は、上記の実施例に基づき、各演算子タスクのハードウェア実行コストを取得することで総実行コストを計算することにより、スキームをスクリーニングする。本実施例の方法は、具体的には、以下のステップを含む。

Ｓ２１０：ターゲットタスクの少なくとも１つの並列計算グラフを決定する。

Ｓ２２０：前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得する。

演算子タスクのハードウェア実行コストは、実測収集や記録からの問い合わせなど、さまざまな手段で取得できる。

好ましくは、ターゲットタスクの並列計算グラフのコンパイル段階で、小規模のヒューリスティック実行により演算子タスクのハードウェア実行コストを収集する。前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得することは、具体的には、前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングするステップと、前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップとを含む。

上記スケジューリング過程は、デフォルトスケジューリングポリシーに基づいて、演算子スケジューリングスキームを生成してスケジューリングすることができる。１つの演算子スケジューリングスキームを用いて、トライアル及びハードウェア実行コストの収集を行ってもよく、複数の演算子スケジューリングスキームを用いて、後続の計算及び比較スクリーニングのために、それぞれトライアル及びハードウェア実行コストの収集を行ってもよい。演算子タスクは、必要なハードウェア実行コストが取得できる限り、完全な演算子スケジューリングスキームに基づいてスケジューリングされてもよいし、ローカル演算子タスクがスケジューリングされて実行されてもよい。

上記設定された規模は、一般に小規模な計算であり、例えば、演算子タスクごとに設定されたデータ量の計算を完了したり、設定された計算回数を完了したりする。より短時間で完了でき、クラスタハードウェアの現在の状態を反映でき、総実行コストを推定するのに十分であればよい。

全ての演算子タスクのハードウェア実行コストを収集して取得してもよく、一部の重要な演算子タスクのハードウェア実行コストを取得してもよい。重要ではない演算子タスクのハードウェア実行コストは、一般的には総実行コストにあまり影響しないか、一般的にはハードウェア性能による影響をあまり受けない。

異なる演算子スケジューリングスキームの場合又は異なるノードによって実行される場合、ハードウェア実行コストが大きく異なる演算子タスクも、ハードウェア実行コストにほとんど差異がない演算子タスクもある。したがって、ヒューリスティック段階では、異なる演算子スケジューリングスキームや異なるノードによって実行される場合の演算子タスクのハードウェア実行コストをできるだけ小規模な計算で得ることができる。

ヒューリスティック計算により収集されたハードウェア実行コストは、クラスタノードのハードウェア性能に応じて記録することができる。十分なデータが記録されている場合、演算子タスクのハードウェア実行コストは、その後、履歴を問い合わせることで取得できる。

Ｓ２３０、各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算する。

本操作は、各演算子タスクのハードウェア実行コストに基づいて、総実行コストを計算するものである。任意的には、前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するという操作を実行する。

総実行コストを計算することは、各工程のハードウェア実行コストを換算して累積することに相当し、並列関係にしたがって、ある演算子タスクが実行するまで待つ必要がある場合、待ちコストも総実行コストに累積する必要がある。

演算子タスクのハードウェア実行コストは、１つ又は複数であってもよく、したがって、対応する総実行コストの計算も複数の方式で具現化されてもよい。

一例として、前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも１つを含むことができる。

いわゆる算子タスクの実行時間とは、計算可能な単位実行時間、例えば、１回のデータ計算を実行する時間、単位データ量の計算を実行する時間、単位データ量を伝送する時間などであってもよい。ターゲットタスク全体を完了する処理の実行時間を換算により算出することができる。図２Ｂに示す並列計算グラフを例にすれば、この並列計算グラフは、Ａ、Ｂ、Ｃ、及びＤという４つの演算子タスクを含み、Ａは、Ｂ及びＣの入次数演算子とされ、Ｂ及びＣは、Ｄの入次数演算子とされる。Ａ、Ｂ、Ｃ、及びＤ演算子タスクの実行時間をそれぞれ４、３、５、及び１とすると、Ｄ演算子タスクが実行時にＢ及びＣ演算子タスクの出力データを待つ必要があるため、Ｂ演算子タスクの実行が完了した後、Ｃ演算子タスクの実行が完了するのを待つ必要がある。よって、総時間は４＋５＋１＝１０となる。

いわゆる演算子タスクのハードウェア占有データは、ビデオメモリ占有率、チップ使用率、及びネットワーク帯域幅使用率などの少なくとも１つを含むことができる。ハードウェア占有データは、演算子タスクの実行時のハードウェアリソースの占有状況を反映している。より多くのデータの処理過程に換算できるように、単位占有率は、好ましい。

前記ハードウェア実行コストの種類が時間のような１つである場合、総実行コストも総時間として反映される。

前記ハードウェア実行コストの種類が複数である場合、前記並列計算グラフの総実行コストは、複数の種類の総実行コストの組み合わせであってもよく、すなわち、総実行時間、総チップ占有率、総帯域占有率、又は平均占有率などの総実行コストを種類ごとに別々に計算する。これにより、そのクラスタでのそのターゲットタスクの実行を総合的に反映するために、ある並列計算グラフのある演算子スケジューリングスキームの各指標が使用される。

あるいは、前記並列計算グラフの総実行コストは、複数の種類の総実行コストの重み付け加算値であってもよい。すなわち、異なるタイプの総実行コストを正規化し、設定された重みにしたがって重み付け加算をすることにより、全体的に比較する。

Ｓ２４０：前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定する。

並列計算グラフ及び演算子スケジューリングスキームのスクリーニングは、特定の並列計算グラフに対して、それに対応する複数の演算子スケジューリングスキームからスクリーニングすることであってもよく、複数の並列計算グラフ及びその演算子スケジューリングスキームを同時にスクリーニングすることであってもよい。総実行コストが設定されたしきい値よりも低いスキームを用いてもよく、総実行コストを降順で最適に選択してもよく、需要に応じてスクリーニングしてもよい。例えば、実行時間が短いことが優先されているか、チップ占有率が低いことが優先されているなどである。

上記過程は、いずれも並列計算グラフのコンパイル段階であり、この段階は、短時間で完了でき、ターゲットタスクを開始させるユーザには知覚されない。

Ｓ２５０：決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行する。

並列計算グラフのコンパイル段階を完了すると、並列計算グラフ及び演算子スケジューリングスキームが決定され、次に、正式に実行段階が行われ、このように、ターゲットタスク全体の実行過程を完了する。

本実施例の技術案は、自動化並列化オプションをオンにすることにより、ユーザが意識しないまま、ターゲットタスクを提出する過程において、コンパイル段階及び実行段階を自動的に実行することができる。最適な並列計算グラフ及び演算子スケジューリングスキームを自動的に見つけることにより、一般には、全体的に２０％〜４０％の計算リソースを節約できる。

第３の実施例
図３は、本出願の第３の実施例によるタスク並列処理の実現方法のフローチャートであり、本実施例は、上記の実施例に基づき、モデルに基づいて総実行コストを予測するための実現方式を提供する。本実施例の方法は、以下のステップを含む。

Ｓ３１０：ターゲットタスクの少なくとも１つの並列計算グラフを決定する。

Ｓ３２０：前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、及び前記クラスタのハードウェアの特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測する。

決定した並列計算グラフ及び演算子スケジューリング順序については、それらが同じ状況のクラスタに複数回割り当てられて実行される場合、それらの総実行コストは、一般的に変わらない。また、並列計算グラフにおける演算子の状況、演算子スケジューリングスキームにおけるスケジューリング順序、及びクラスタにおけるハードウェア特徴の中には、一部の特徴が総実行コストに影響を与える鍵となる特徴である。よって、機械学習モデルを構築することによって、前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、及び前記クラスタのハードウェアの特徴を学習し、総実行コストの予測を達成することができる。

スケジューリングスキームモデルの訓練学習は、主に総実行コストに影響を与える鍵となる特徴又は一般化特徴を学習することであり、次の態様を含むが、これらに限定されない。

第１の態様では、前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも１つを含む。

これらの中でも、演算子タスクのパラメータは、畳み込み演算子の畳み込みカーネルパラメータなど、演算子タスクの計算量に影響を与えるいくつかのパラメータであってもよい。演算子タスクのタイプは、計算クラスと通信クラスとに簡単に分類することができ、好ましくは、前述のように、減算、加算、畳み込み演算子などより具体的に分類する。演算子タスクのタイプは、モデル学習の効果にしたがって持続的に最適化され得る。

第２の態様では、前記演算子スケジューリングスキームのスケジューリング特徴は、通信クラスの演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも１つを含む。

演算子スケジューリングスキームのスケジューリング特徴は、主にスケジューリング順序を反映する。ローカルスケジューリング順序又は鍵となるスケジューリング順序を反映する特徴を用いることが好ましい。例えば、一般的には、通信演算子タスクは、どの計算クラスの演算子タスクの前後にあるかによって実行時間に影響を与えるので、通信クラスの演算子タスクの近傍にある他の計算クラスの演算子タスクのバンドル特徴、すなわち入次数演算子タスクと出次数演算子タスクの数と種類を記録し、配列として表現することができる。並列計算グラフの並列度は全体的指標であるが、スケジューリング順序を反映できる指標でもある。

第３の態様では、前記クラスタのノードハードウェア特徴は、ノードの数、及びノードのハードウェア性能指標を含む。

ノードのハードウェア性能指標は、ＧＰＵの周波数、帯域幅、メモリ容量などを含む。

第４の態様では、前記総実行コストは、正規化処理されたデータである。

異なる並列計算グラフ間の総実行コストを容易に比較できるように、総実行コストを０−１区間に正規化することが好ましい。

本実施例で採用されるスケジューリングスキームモデルは、任意的には、線形回帰モデルである。

Ｓ３３０：予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定する。

予測により得られる総実行コストは、計算によって得られる総実行コストと類似してもよく、これに基づいて並列計算グラフ及び演算子スケジューリングスキームがスクリーニングされる。

Ｓ３４０：決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行する。

本実施例では、あるクラスタにおける、ある並列計算グラフ及び演算子スケジューリングスキームの総実行コストをスケジューリングスキームモデルの方式で予測し、それによってスクリーニングを行い、クラスタのハードウェア状態を考慮し、またヒューリスティック実際計算への依存とリソース占有を減少させることができ、ターゲットタスクの実行効率をさらに向上させることができる。

本実施例で使用されるスケジューリングスキームモデルは、事前に訓練して取得することができる。すなわち、本実施例の方法は、
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得するステップと、
各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するステップと、をさらに含む。

履歴のデータについては、第２の実施例の方式によって、スクリーニングして決定した並列計算グラフ及び演算子スケジューリングスキームを取得することができる。複数回記録すると、十分な訓練サンプルを取得することができる。

本出願の実施例に係る、ヒューリスティック計算による並列計算グラフ及び演算子スケジューリングスキームのスクリーニング、並びに、モデル予測による並列計算グラフ及び演算子スケジューリングスキームのスクリーニングは、独立して実施されてもよく、組み合わせて実施されてもよい。任意的には、モデル予測を粗スクリーニング方式とし、ヒューリスティクス計算を精細スクリーニング方式として、組み合わせて採用する。
この場合、予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後、スクリーニングして決定した前記並列計算グラフ及び／又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行するステップと、前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算するステップと、計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するステップと、をさらに含んでもよい。

決定したクラスタのハードウェア性能は、一般的に変わらないが、異なる時期にクラスタのハードウェア性能がわずかに変化することを排除するものではない。したがって、モデル予測の方式によって粗スクリーニングされたいくつかのスキームは、ヒューリスティックに現在のクラスタにスケジューリングして実行し、ハードウェアの実行性能を実測し、さらに正確なスケジューリングスキームをスクリーニングすることができる。

第４の実施例
図４Ａは、本出願の第４の実施例によるタスク並列処理の実現方法のフローチャートである。図４Ｂは、本出願の第４の実施例が適用される実現過程の概略図である。本実施例は、上記の実施例に基づき、１つの選択可能な実施例のスキームを提供し、具体的には、以下のステップを含む。

Ｓ４１０：複数の演算子タスクを含む、ターゲットタスクの複数の並列計算グラフを決定する。

具体的には、スダンドアロン計算グラフに基づき、クラスタが呼び出し可能なノードの数に基づいて、複数の並列計算グラフを大量生成することができる。並列計算グラフの生成は、マルチフロー通信、勾配集約、階層通信などの方法に基づいて、並列効率を最適化することができる。並列計算グラフの生成は、マルチフロー通信におけるフロー数、勾配集約の組合せ、通信方法（階層通信、２Ｄ通信、リング通信）などをサンプリングして複数の並列計算グラフを生成する。異なる並列計算グラフが異なる勾配集約を用いると、通信クラス演算子のタスクの変化を招く。

Ｓ４２０：各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定する。

初期演算子スケジューリングスキームは、デフォルトのスケジューリングポリシーによって決定されたスキームであってもよい。総実行コストは、ヒューリスティック計算の方式又はモデル予測の方式で決定してもよい。

任意的には、ヒューリスティック計算の方式で決定し、すなわち、Ｓ４２０は、具体的には、以下のステップを含む。

Ｓ４２１：前記並列計算グラフの演算子タスクを前記クラスタにスケジューリングして、設定された規模の処理を実行する。

複数の並列計算グラフは、呼び出し可能なクラスタノードにそれぞれスケジューリングされて処理を実行してもよい。図４Ｂに示すように、クラスタは、このターゲットタスクに、黒いセルによって表されるノードが呼び出し可能なリソースであることを決定することができる。

Ｓ４２２：前記演算子タスクがノードによって実行されるハードウェア実行コストを収集する。

Ｓ４２３：各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算する。

Ｓ４３０：前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定する。

具体的には、総実行コストのランキングによって、性能の良い前のＫ個の並列計算グラフを候補並列計算グラフとして選別することができる。

Ｓ４４０：前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定する。

具体的には、初期演算子スケジューリングスキームに基づき、並列計算グラフのトポロジー規則を満たす前提で、並列計算グラフの様々な実行可能な演算子スケジューリングスキームに対して摂動生成を行う。例えば、すべての実行可能な演算子スケジューリングスキームは、ヒューリスティック調整によって候補演算子スケジューリングスキームとして決定されてもよい。このスキームは、自動探索アルゴリズムを利用して、スクリーニングに利用可能な複数の演算子スケジューリングスキームを決定するものである。

Ｓ４５０：各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定する。

前述の方法を参照すると、候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、総実行コストは決定されてもよい。総実行コストは、例えば、オフライン計算の方式によって計算されてもよい。又は、総実行コストは、モデル予測の方式によって決定されてもよい。

Ｓ４６０：前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングする。

複数グループの候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを統合して、最適なスキームを選択してもよい。

Ｓ４７０：決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行する。

本出願の実施例の技術案では、ターゲットタスクの並列計算グラフ及び演算子スケジューリングスキームを決定する際に、クラスタの状況、すなわちハードウェア実行コストを導入して考慮することで、クラスタに関係のない並列処理形態よりも、ターゲットタスクの実行速度をさらに速め、並列度を高め、計算リソースを節約することができる。本出願の実施例は、ターゲットタスクをクラスタ状況に自動的にマッチングし、適切な並列計算グラフ及び演算子スケジューリングスキームをスクリーニングすることができる。この利点は、ディープラーニングの分野で特に顕著である。ディープラーニングの分野におけるターゲットタスクは、一般には、機械学習モデルの訓練又は実際のアプリケーションの実行であり、ターゲットタスクの演算子タスクは多く、かつ関係が複雑であり、実行可能なスケジューリングスキームが複数あり、本出願の実施例の技術案によれば、ディープラーニングのフレームワークが異なるハードウェア環境のクラスタで最適に近い訓練速度を自動的に得ることができる。

第５の実施例
図５は、本出願の第５の実施例によるタスク並列処理の実現装置の構造概略図であり、該装置５００は、計算グラフ決定モジュール５１０と、スケジューリングスキームスクリーニングモジュール５２０と、タスクスケジューリング実行モジュール５３０とを備える。

計算グラフ決定モジュール５１０は、複数の演算子タスクを含む、ターゲットタスクの少なくとも１つの並列計算グラフを決定するために用いられ、
スケジューリングスキームスクリーニングモジュール５２０は、前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも１つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するために用いられ、
タスクスケジューリング実行モジュール５３０は、決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するために用いられる。

上記スキームに基づき、１つの選択可能なスキームは以下のとおりである。スジューリングスキームスクリーニングモジュール５２０は、具体的には、
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するための演算子コスト取得ユニットと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するための総コスト計算ユニットと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスキームスクリーニングユニットと、を備える。

任意的には、演算子コスト取得ユニットは、具体的には、前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングし、前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するために用いられる。

任意的には、総コスト計算ユニットは、具体的には、前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するために用いられる。

上記スキームに基づき、他の選択可能なスキームは以下のとおりである。スケジューリングスキームスクリーニングモジュール５２０は、具体的には、前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、及び前記クラスタのハードウェアの特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測し、予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するために用いられる。

任意的には、前記装置は、予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後に、スクリーニングして決定した前記並列計算グラフ及び／又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行し、前記演算子タスクがノードによって実行されるハードウェア実行コストを収集し、前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算し、計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するための二次スクリーニングモジュールをさらに備える。

任意的には、前記装置は、
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得し、各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するためのモデル訓練モジュールをさらに備える。

任意的には、
前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも１つを含み、
前記演算子スケジューリングスキームのスケジューリング特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも１つを含み、
前記クラスタのノードハードウェア特徴は、ノードの数、及びノードのハードウェア性能指標を含み、
前記総実行コストは、正規化処理されたデータである。

任意的には、計算グラフ決定モジュール５１０は、具体的には、前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも１つの前記並列計算グラフを生成するために用いられる。

任意的には、前記演算子タスクのタイプは、計算クラスと通信クラスとを少なくとも含む、
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる。

任意的には、
前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも１つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率、の少なくとも１つを含む。

任意的には、スケジューリングスキームスクリーニングモジュール５２０は、具体的には、
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定し、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定し、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定し、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定し、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするために用いられる。

第６の実施例
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図６は、本出願の第６の実施例に係る電子機器のブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、テーブル、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器はまた、パーソナル・デジタル・プロセッシング、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置などの様々な形態のモバイル装置を表すこともできる。本明細書に示される部品、それらの接続及び関係、並びに、それらの機能は一例に過ぎず、本明細書に記載及び／又は要求される本出願の実装を制限することを意図していない。

図６に示すように、該電子機器は、１つ又は複数のプロセッサ６０１と、メモリ６０２と、高速インターフェース及び低速インターフェースを含む各部品を接続するためのインターフェースとを含む。各部品は、異なるバスを使用して相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（例えば、インターフェースに結合された表示機器）にＧＵＩのグラフィカル情報を表示するためにメモリ内又はメモリ上に記憶された命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子機器が接続されてもよく、各機器は必要な操作の一部を提供する（例えば、サーバアレイ、１グループのブレードサーバ、マルチプロセッサシステムとして）。図６には、１つのプロセッサ６０１を例とする。

メモリ６０２は、本出願による非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも１つのプロセッサによって実行可能な命令を記憶することにより、本出願の実施例によるタスク並列処理の実現方法を前記の少なくとも１つのプロセッサに実行させる。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、本出願の実施例によるタスク並列処理の実現方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。

メモリ６０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるタスク並列処理の実現方法に対応するプログラム命令／モジュール（例えば、図５に示す計算グラフ決定モジュール５１０、スケジューリングスキームスクリーニングモジュール５２０、及びタスクスケジューリング実行モジュール５３０）などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを記憶することに使用され得る。プロセッサ６０１は、メモリ６０２に記憶された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例におけるタスク並列処理の実現方法を実現する。

メモリ６０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶し得るプログラム記憶領域と、タスク並列処理の実現方法による電子機器の使用により作成されたデータなどを記憶し得るデータ記憶領域と、を含むことができる。さらに、メモリ６０２は、高速ランダムアクセスメモリを含むことができ、少なくとも１つのディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的な固体メモリデバイスのような非一時的なメモリも含むことができる。いくつかの実施例では、メモリ６０２は、プロセッサ６０１に対して遠隔的に配置されたメモリを任意的に含むことができ、これらの遠隔メモリは、タスク並列処理の実現方法の電子機器にネットワークを介して接続することができる。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組合せが含まれるが、これらに限定されるものではない。

タスク並列処理の実現方法の電子機器は、入力装置６０３と出力装置６０４とをさらに備えてもよい。プロセッサ６０１、メモリ６０２、入力装置６０３、及び出力装置６０４は、バス又は他の方式で接続されてもよく、図６にはバスを介した接続が例示されている。

入力装置６０３は、入力された数字又は文字情報を受信して、タスク並列処理の実現方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）などを含むことができる。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、本出願の実施例のタスク並列処理の実現方法が実行される。

ここで記載されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施されることを含むことができ、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受け取り、この記憶システム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置にデータ及び命令を伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブラ／機械言語を利用して実施され得る。本明細書で使用した用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置（ＰＬＤ））を意味し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。機械読み取り可能な信号という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで記載されたシステム及び技術は、コンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びユーザがコンピュータに入力を提供し得るキーボード及びポインティング装置（例えば、マウス又はトラックボール）を含む。他の種類の装置は、ユーザとのインタラクションを提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、また、ユーザからの入力は、任意の形式（音響入力、音声入力、又は触覚入力を含む）で受信することができる。

ここで記載されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、若しくはそのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含むコンピューティングシステムで実施され得る。システムの部品は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互に接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、一般には、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

本出願の実施例の技術案によれば、ターゲットタスクに並列計算グラフ及び演算子スケジューリングスキームを決定する際に、クラスタにおける演算子タスクのハードウェア実行コストをスクリーニング根拠として導入して考慮することにより、ターゲットタスクの実行を異なる環境状況のクラスタによりよく適合させ、最適な並列効率を達成することができる。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願で開示されている技術案が所望の結果を実現できる限り、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本明細書では限定されない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の趣旨と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきでえある。

Claims

複数の演算子タスクを含む、ターゲットタスクの少なくとも１つの並列計算グラフを決定するステップと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも１つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するステップと、を含む、
ことを特徴とするタスク並列処理の実現方法。
クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するステップと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するステップと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む、
ことを特徴とする請求項１に記載のタスク並列処理の実現方法。
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するステップは、
前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングするステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、を含む、
ことを特徴とする請求項２に記載のタスク並列処理の実現方法。
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するステップは、
前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するステップを含む、
ことを特徴とする請求項２に記載のタスク並列処理の実現方法。
クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、及び前記クラスタのハードウェアの特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測するステップと、
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップと、を含む、
ことを特徴とする請求項１に記載のタスク並列処理の実現方法。
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後に、
スクリーニングして決定した前記並列計算グラフ及び／又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行するステップと、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するステップと、
前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算するステップと、
計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するステップと、をさらに含む、
ことを特徴とする請求項５に記載のタスク並列処理の実現方法。
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得するステップと、
各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するステップと、をさらに含む、
ことを特徴とする請求項５に記載のタスク並列処理の実現方法。
前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも１つを含み、
前記演算子スケジューリングスキームのスケジューリングの特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも１つを含み、
前記クラスタのノードハードウェアの特徴は、ノードの数、及びノードのハードウェア性能指標を含む、
前記総実行コストは、正規化処理されたデータである、
ことを特徴とする請求項５に記載のタスク並列処理の実現方法。
前記スケジューリングスキームモデルは、線形回帰モデルである、
ことを特徴とする請求項５に記載のタスク並列処理の実現方法。
ターゲットタスクの少なくとも１つの並列計算グラフを決定するステップは、
前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも１つの前記並列計算グラフを生成するステップを含む、
ことを特徴とする請求項１から９のいずれかに記載のタスク並列処理の実現方法。
前記演算子タスクのタイプは、計算クラスと通信クラスとを少なくとも含み、
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる、
ことを特徴とする請求項１から９のいずれかに記載のタスク並列処理の実現方法。
前記ターゲットタスクは、機器学習モデルの訓練タスク又は運転タスクであり、前記計算クラスの演算子タスクは、数学的演算子、配列演算子、及びニューラルネットワークブロック演算子の少なくとも１つを含む、
ことを特徴とする請求項１１に記載のタスク並列処理の実現方法。
前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも１つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率の少なくとも１つを含む、
ことを特徴とする請求項１から９のいずれかに記載のタスク並列処理の実現方法。
前記ハードウェア実行コストの種類が複数である場合、前記並列計算グラフの総実行コストが複数の種類の総実行コストの組合せ又は複数の種類の総実行コストの重み付け加算値である、
ことを特徴とする請求項１３に記載のタスク並列処理の実現方法。
クラスタにおける前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するステップは、
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定するステップと、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定するステップと、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定するステップと、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定するステップと、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするステップと、を含む、
ことを特徴とする請求項１から９のいずれかに記載のタスク並列処理の実現方法。
複数の演算子タスクを含む、ターゲットタスクの少なくとも１つの並列計算グラフを決定するための計算グラフ決定モジュールと、
前記演算子タスクを実行するための複数のノードを含むクラスタにおける、少なくとも１つの演算子スケジューリングスキームを有する前記並列計算グラフの演算子タスクのハードウェア実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスケジューリングスキームスクリーニングモジュールと、
決定した並列計算グラフ及び演算子スケジューリングスキームに基づいて、前記並列計算グラフにおける演算子タスクを前記クラスタ内でスケジューリングして実行するためのタスクスケジューリング実行モジュールと、を備える、
ことを特徴とするタスク並列処理の実現装置。
前記スケジューリングスキームスクリーニングモジュールは、
前記演算子タスクがクラスタ内でノードによって実行されるハードウェア実行コストを取得するための演算子コスト取得ユニットと、
各前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で実行される総実行コストを計算するための総コスト計算ユニットと、
前記総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するためのスキームスクリーニングユニットと、を備える、
ことを特徴とする請求項１６に記載のタスク並列処理の実現装置。
演算子コスト取得ユニットは、具体的には、
前記並列計算グラフの演算子タスクを、設定された規模の処理を実行するように前記クラスタにスケジューリングし、
前記演算子タスクがノードによって実行されるハードウェア実行コストを収集するために用いられる、
ことを特徴とする請求項１７に記載のタスク並列処理の実現装置。
総コスト計算ユニットは、具体的には、
前記演算子スケジューリングスキームにおけるスケジューリング順序と、前記並列計算グラフにおける各演算子タスクの並列関係とに基づき、各前記演算子タスクのハードウェア実行コストを統計し、前記総実行コストを計算するために用いられる、
ことを特徴とする請求項１７に記載のタスク並列処理の実現装置。
前記スケジューリングスキームスクリーニングモジュールは、具体的には、
前記並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、及び前記クラスタのハードウェアの特徴に応じて、スケジューリングスキームモデルに基づいて、前記並列計算グラフが前記演算子スケジューリングスキームを用いて前記クラスタ内で処理される総実行コストを予測し、
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定するために用いられる、
ことを特徴とする請求項１６に記載のタスク並列処理の実現装置。
予測した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームをスクリーニングして決定した後に、スクリーニングして決定した前記並列計算グラフ及び／又は演算子スケジューリングスキームの数が複数である場合、各グループの前記並列計算グラフ及び演算子スケジューリングスキームに対して、それぞれ演算子タスクを前記クラスタ内にスケジューリングして実行し、前記演算子タスクがノードによって実行されるハードウェア実行コストを収集し、前記演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフ及び演算子スケジューリングスキームの総実行コストを計算し、計算した総実行コストに基づいて、並列計算グラフ及び演算子スケジューリングスキームを再スクリーニングして決定するための二次スクリーニングモジュールをさらに備える、
ことを特徴とする請求項２０に記載のタスク並列処理の実現装置。
クラスタ内で実行された履歴の並列計算グラフ及び演算子スケジューリングスキームを訓練サンプルとして取得し、各訓練サンプルにおける並列計算グラフの演算子の特徴、演算子スケジューリングスキームのスケジューリングの特徴、前記クラスタのハードウェアの特徴、及び結果としての総実行コストを用いて、スケジューリングスキームモデルを訓練するためのモデル訓練モジュールをさらに備える、
ことを特徴とする請求項２０に記載のタスク並列処理の実現装置。
前記並列計算グラフの演算子の特徴は、演算子タスクのハードウェア実行コスト、演算子タスクの数、演算子タスクのパラメータ、演算子タスクのタイプ、及び通信演算子タスクの数の少なくとも１つを含み、
前記演算子スケジューリングスキームのスケジューリングの特徴は、通信演算子タスクの入次数演算子タスク及び出次数演算子タスクの数及び種類、並びに、並列計算グラフの並列度の少なくとも１つを含み、
前記クラスタのノードハードウェアの特徴は、ノードの数、及びノードのハードウェア性能指標を含む、
前記総実行コストは、正規化処理されたデータである、
ことを特徴とする請求項２０に記載のタスク並列処理の実現装置。
前記スケジューリングスキームモデルは、線形回帰モデルである、
ことを特徴とする請求項２０に記載のタスク並列処理の実現装置。
計算グラフ決定モジュールは、具体的には、
前記ターゲットタスクのスタンドアロン計算グラフと前記クラスタ内のノード数とに基づいて、少なくとも１つの前記並列計算グラフを生成するために用いられる、
ことを特徴とする請求項１６から２４のいずれかに記載のタスク並列処理の実現装置。
前記演算子タスクのタイプは、計算クラスと通信クラスとを少なくとも含み、
前記計算クラスの演算子タスクは、データを計算することに用いられ、前記通信クラスの演算子タスクは、ノード間でデータを伝送することに用いられる、
ことを特徴とする請求項１６から２４のいずれかに記載のタスク並列処理の実現装置。
前記ターゲットタスクは、機器学習モデルの訓練タスク又は運転タスクであり、前記計算クラスの演算子タスクは、数学的演算子、配列演算子、及びニューラルネットワークブロック演算子の少なくとも１つを含む、
ことを特徴とする請求項２６に記載のタスク並列処理の実現装置。
前記演算子タスクのハードウェア実行コストは、前記演算子タスクの実行時間、及び前記演算子タスクのハードウェア占有データの少なくとも１つを含み、
前記ハードウェア占有データは、ビデオメモリ占有率、チップ利用率、及びネットワーク帯域幅利用率の少なくとも１つを含む、
ことを特徴とする請求項１６から２４のいずれかに記載のタスク並列処理の実現装置。
前記ハードウェア実行コストの種類が複数である場合、前記並列計算グラフの総実行コストが複数の種類の総実行コストの組合せ又は複数の種類の総実行コストの重み付け加算値である、
ことを特徴とする請求項２８に記載のタスク並列処理の実現装置。
スケジューリングスキームスクリーニングモジュールは、具体的には、
各並列計算グラフ及び初期演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記並列計算グラフの総実行コストを決定し、
前記総実行コストに基づいて複数の前記並列計算グラフをスクリーニングし、候補並列計算グラフを決定し、
前記候補並列計算グラフに対して、ヒューリスティックアルゴリズムを用いて複数の候補演算子スケジューリングスキームを決定し、
各グループの前記候補並列計算グラフ及び候補演算子スケジューリングスキームに対して、演算子タスクのハードウェア実行コストに基づいて、前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストを決定し、
前記候補並列計算グラフ及び候補演算子スケジューリングスキームの総実行コストに基づいて、候補並列計算グラフに候補演算子スケジューリングスキームをスクリーニングするために用いられる、
ことを特徴とする請求項１６から２４のいずれかに記載のタスク並列処理の実現装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令が前記少なくとも１つのプロセッサにより実行されることで、前記少なくとも１つのプロセッサが請求項１から１５のいずれかに記載のタスク並列処理の実現方法を実行する、
ことを特徴とする電子機器。
コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が実行される場合、請求項１から１５のいずれかに記載のタスク並列処理の実現方法が実行される、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項１から１５のいずれかに記載のタスク並列処理の実現方法が実行される、
ことを特徴とするコンピュータプログラム。