JP6666553B2 - 情報処理装置、ジョブ管理方法およびジョブ管理プログラム - Google Patents
情報処理装置、ジョブ管理方法およびジョブ管理プログラム Download PDFInfo
- Publication number
- JP6666553B2 JP6666553B2 JP2016094792A JP2016094792A JP6666553B2 JP 6666553 B2 JP6666553 B2 JP 6666553B2 JP 2016094792 A JP2016094792 A JP 2016094792A JP 2016094792 A JP2016094792 A JP 2016094792A JP 6666553 B2 JP6666553 B2 JP 6666553B2
- Authority
- JP
- Japan
- Prior art keywords
- migration
- job
- candidate
- nodes
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また例えば、使用中のノードを架空の熱源とし、熱源の周囲の空きノードの温度が最も低い空きノードを中心ノードとして、中心ノードから距離の近い空きノードを選択する技術がある。
1つの側面では、本発明は、稼働率を向上させることを目的とする。
[第1の実施の形態]
第1の実施の形態について説明する。図1は、第1の実施の形態に係る情報処理装置の機能の一例を示す図である。情報処理装置1は、直接網で接続された複数のノードに実行させるジョブを管理する。直接網は、相互接続される複数のノードが、内蔵するルータによって直接接続されるネットワークである。直接網には、メッシュ結合、トーラス結合などのネットワークがある。
〔ステップS1〕時刻T0以前から、ジョブA、B、Cがそれぞれノードに割り当てられて、ジョブA、B、Cが実行されている。また、ジョブA、B、Cが割り当てられていない空きノードn1、n2が散在している。この状態で、時刻T0において、ジョブDを投入する場合に、ジョブAをマイグレーションするものとする。
次に第2の実施の形態について説明する。第2の実施の形態は、複数ノードが存在するネットワーク、例えば、トーラスネットワークやメッシュネットワーク等でジョブをスケジューリングする際に、マイグレーションを効率的に行って、マイグレーションに要する時間の短縮化を図るものである。
図2は、ジョブのスケジューリングを説明するための図である。ジョブのスケジューリングを行うジョブコントローラは、資源量と経過時間制限にもとづいて、ジョブを資源に対して割り当てる。
また、ジョブコントローラは、ジョブAの終了予定時刻が時刻T1であることを認識し、時刻T1からジョブCを実行して時刻T2に終了するまでの経過時間制限分の資源量を確保(使用)するものとする。
よって、図3のフラグメンテーション状態のままでジョブEを最も早く実行するには、図4に示すように、ジョブCの終了予定時刻である時刻T1以降に割り当て可能なノードを使用して、ジョブEを実行することになる。
図5は、マイグレーションの一例を示す図である。状態st11では、ジョブAを実行しているノードから、空いているノードn1へジョブAを移動するマイグレーションが行われている。また、状態st12では、マイグレーションを行うことによって、新たな空きノードn3が生成されている。
さらにまた、時刻T3では、ノードN3に割り当てられていたジョブCの実行が終了する状態が示される。
〔通信量算出処理〕
最初に、通信量算出処理について説明する。マイグレーションを行う場合、ジョブを空きノードへ移動するが、マイグレーションによる移動に伴って、ジョブのデータ分の通信量が発生する。
(ジョブ単位の通信量)=(通信ホップ数)×(メモリ量)・・・(1)
なお、式(1)中の通信ホップ数は、マイグレーション対象のジョブの移動元から移動先に存在するノードのホップ数である。
(通信ホップ数)=(移動先のノードのx座標−移動元のノードのx座標)+(移動先のノードのy座標−移動元のノードのy座標)+(移動先のノードのz座標−移動元のノードのz座標)・・・(2)
一方、式(1)中のメモリ量は、ジョブを実行する際にどこまでメモリを使用してよいかのメモリ制限値に該当する。
次に係数算出処理について説明する。係数算出部13は、マイグレーション候補Maの通信量と、マイグレーション候補Maの比較対象になるマイグレーション候補(マイグレーション候補Mbとする)の通信量との比率(通信量の係数)を算出する。
(通信量の係数)=(マイグレーション候補Mbの通信量)/(マイグレーション候補Maの通信量)・・・(3)
また、係数算出部13は、マイグレーション候補Maでジョブが利用するノード数と、マイグレーション候補Mbでジョブが利用するノード数との比率(ノード数の係数)を算出する。
マイグレーション候補でジョブが利用するノード数は、ジョブコントローラ10がジョブ割り当ての際に、どのノードにどれだけのジョブを割り当てられるかの情報をメモリ16上に保持させている。このため、係数算出部13は、ノード数の係数算出を行う場合、ノード数を即時に取得することができる。なお、ノード数が多いほど、マイグレーションに時間がかかることになる。
次にマイグレーション最短時間候補の決定処理について説明する。マイグレーションの処理時間に影響が最も大きいのは通信量である。したがって、マイグレーション最短時間候補決定部14では、2つのマイグレーション候補に対して、どちらのマイグレーション候補が時間短縮に有利なのか、まず通信量の係数にもとづいて比較を行う。
図10は、マイグレーション最短時間候補を決定するまでの動作の一例を示すフローチャートである。
〔ステップS12〕マイグレーション候補選択部11は、マイグレーション候補Maの比較対象となるマイグレーション候補Mbを選択する。マイグレーション候補Maとマイグレーション候補Mbとが、比較対象となるマイグレーション候補対を構成する。なお、以前に選択され比較対象から除外されたマイグレーション候補は、ステップS12では選択されない。
〔ステップS14〕係数算出部13は、式(3)にもとづいて通信量の係数を算出し、式(4)にもとづいて、ノード数の係数を算出する。
〔ステップS18〕マイグレーション最短時間候補決定部14は、最終評価値(第2の評価値)と所定値とを比較する(第2の評価)。最終評価値が所定値未満(例えば、2未満)の場合は、処理がステップS16に進められ、最終評価値が所定値以上(例えば、2以上)の場合は、処理がステップS19に進められる。
上記のように、マイグレーション最短時間候補決定部14は、最初に、通信量のパラメータを含む第1の評価値(通信ノードの係数)にもとづいて、マイグレーション最短時間候補を決定するための第1の評価を行う。
〔マイグレーション判定処理〕
次にマイグレーション判定処理について説明する。マイグレーション判定部15では、上記のようにして決定されたマイグレーション最短時間候補を用いてマイグレーションを実施した際に、実際に稼働率が向上するか否かを判定する。
なお、マイグレーションにかかる時間は、以下の式(7)から求められる。
(マイグレーションにかかる時間)=(ファイルにジョブデータを書き込む時間)×(メモリ使用量)/(バンド幅)・・・式(7)
式(7)中のファイルにジョブデータを書き込む時間は、マイグレーションによって移動すべきジョブデータをファイルに書き込むための処理時間であり固定値である。また、メモリ使用量は、マイグレーション対象のノードのメモリ使用量である。バンド幅は、マイグレーション対象のノードと接続する通信路のバンド幅である。
このように、マイグレーション判定部15は、マイグレーション最短時間候補でマイグレーションを行った際の損失稼働率と有効稼働率とを算出し、損失稼働率が有効稼働率より小さい場合は、マイグレーション最短時間候補のマイグレーションの実施が有効であると判定する。
図11は、フラグメンテーション状態のときのジョブ投入の一例を示す図である。図11の例では、現時刻T0において、ジョブA、B、Cがそれぞれノードに割り当てられて動作を開始している。また、ジョブA、B、Cが割り当てられていない空きノードが散在しており、フラグメンテーション状態が生じている。
1a 特定手段
1b 決定手段
1c 判定手段
A、B、C、D ジョブ
M1、M2 マイグレーション候補
n1、n2、n3 空きノード
T0、T1、T2、T3 時刻
Claims (8)
- 直接網で接続された複数のノードに実行させるジョブを管理する情報処理装置において、
実行中のジョブそれぞれを候補ジョブとし、ジョブを実行していない空きノードから選択された移動先ノードに前記候補ジョブを移動させるマイグレーションを実施することで、空きノードが連続する範囲を拡大できる場合、前記候補ジョブの前記移動先ノードへのマイグレーションをマイグレーション候補として特定する特定手段と、
前記マイグレーション候補が複数あるとき、複数の前記マイグレーション候補それぞれの、前記マイグレーション候補に示されるマイグレーションを実施する際の通信量と、該マイグレーションで移動する前記候補ジョブの実行に利用するノード数とに基づいて、複数の前記マイグレーション候補の中から実施対象のマイグレーション候補を決定する決定手段と、
を有する情報処理装置。 - 前記決定手段は、前記マイグレーション候補に示されるマイグレーションで移動する前記候補ジョブを現在実行しているノードから前記移動先ノードまでの通信のホップ数と、前記候補ジョブが使用するメモリ量とに基づいて、前記通信量を算出する、
請求項1記載の情報処理装置。 - 前記決定手段は、
複数の前記マイグレーション候補から、比較対象から除外されていない2つの前記マイグレーション候補を繰り返し抽出して、抽出された前記マイグレーション候補を含むマイグレーション候補対を生成し、
前記マイグレーション候補対に含まれる前記マイグレーション候補それぞれの前記通信量と前記ノード数とに基づいて、ジョブの移動に要する時間を比較する評価値を計算し、
生成された前記マイグレーション候補対ごとに、前記マイグレーション候補対に含まれる2つの前記マイグレーション候補のうち、前記評価値に基づいてジョブの移動に要する時間が他方より長いと評価できる前記マイグレーション候補を、比較対象から除外し、
比較対象から除外されずに最後に残った前記マイグレーション候補を、実施対象のマイグレーション候補に決定する、
請求項1または2に記載の情報処理装置。 - 前記決定手段は、
前記マイグレーション候補対に含まれる2つの前記マイグレーション候補それぞれのマイグレーションを実施する際の通信量を比較する第1の評価値を計算すると共に、該2つの前記マイグレーション候補それぞれの前記候補ジョブの実行に利用するノード数と、マイグレーションを実施する際の通信量とを比較する第2の評価値を計算し、
前記第1の評価値に基づいて、前記マイグレーション候補対に含まれる2つの前記マイグレーション候補のうち、ジョブの移動に要する時間が他方より短い前記マイグレーション候補を決定するための第1の評価を行い、前記第1の評価値が決定するための基準を満たさない場合は、前記第2の評価値に基づいて、ジョブの移動に要する時間が他方より短い前記マイグレーション候補を決定するための第2の評価を行う、
請求項3記載の情報処理装置。 - 前記決定手段は、
前記マイグレーション候補対に含まれる第1のマイグレーション候補に示されるマイグレーションを実施する際の第1の通信量と、前記マイグレーション候補対に含まれる第2のマイグレーション候補に示されるマイグレーションを実施する際の第2の通信量とを求め、
前記第1のマイグレーション候補に示されるマイグレーションで移動する第1の候補ジョブの実行に利用する第1のノード数と、前記第2のマイグレーション候補に示されるマイグレーションで移動する第2の候補ジョブの実行に利用する第2のノード数とを求め、
前記第2の通信量を前記第1の通信量で除算した値である通信量係数を前記第1の評価値とし、
前記第2のノード数を前記第1のノード数で除算した値であるノード数係数と、前記通信量係数とを加算した加算値を前記第2の評価値とする、
請求項4記載の情報処理装置。 - 前記実施対象のマイグレーション候補に基づいてマイグレーションを実施した場合における、前記候補ジョブの実行効率が低下する度合いを示す損失稼働率と、該マイグレーションを実施した場合における前記候補ジョブ以外のジョブの実行効率が向上する度合いを示す有効稼働率とを算出し、前記損失稼働率が前記有効稼働率より小さい場合には、前記実施対象のマイグレーション候補のマイグレーションの実施が有効であると判定する判定手段をさらに有する、
請求項1乃至5のいずれかに記載の情報処理装置。 - 直接網で接続された複数のノードに実行させるジョブを管理する情報処理装置が、
実行中のジョブそれぞれを候補ジョブとし、ジョブを実行していない空きノードから選択された移動先ノードに前記候補ジョブを移動させるマイグレーションを実施することで、空きノードが連続する範囲を拡大できる場合、前記候補ジョブの前記移動先ノードへのマイグレーションをマイグレーション候補として特定し、
前記マイグレーション候補が複数あるとき、複数の前記マイグレーション候補それぞれの、前記マイグレーション候補に示されるマイグレーションを実施する際の通信量と、該マイグレーションで移動する前記候補ジョブの実行に利用するノード数とに基づいて、複数の前記マイグレーション候補の中から実施対象のマイグレーション候補を決定する、
ジョブ管理方法。 - 直接網で接続された複数のノードに実行させるジョブを情報処理装置に管理させるジョブ管理プログラムにおいて、
前記情報処理装置に、
実行中のジョブそれぞれを候補ジョブとし、ジョブを実行していない空きノードから選択された移動先ノードに前記候補ジョブを移動させるマイグレーションを実施することで、空きノードが連続する範囲を拡大できる場合、前記候補ジョブの前記移動先ノードへのマイグレーションをマイグレーション候補として特定し、
前記マイグレーション候補が複数あるとき、複数の前記マイグレーション候補それぞれの、前記マイグレーション候補に示されるマイグレーションを実施する際の通信量と、該マイグレーションで移動する前記候補ジョブの実行に利用するノード数とに基づいて、複数の前記マイグレーション候補の中から実施対象のマイグレーション候補を決定する、
処理を実行させるジョブ管理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016094792A JP6666553B2 (ja) | 2016-05-10 | 2016-05-10 | 情報処理装置、ジョブ管理方法およびジョブ管理プログラム |
US15/428,503 US10394615B2 (en) | 2016-05-10 | 2017-02-09 | Information processing apparatus and job management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016094792A JP6666553B2 (ja) | 2016-05-10 | 2016-05-10 | 情報処理装置、ジョブ管理方法およびジョブ管理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017204086A JP2017204086A (ja) | 2017-11-16 |
JP6666553B2 true JP6666553B2 (ja) | 2020-03-18 |
Family
ID=60295169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016094792A Active JP6666553B2 (ja) | 2016-05-10 | 2016-05-10 | 情報処理装置、ジョブ管理方法およびジョブ管理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10394615B2 (ja) |
JP (1) | JP6666553B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815011A (zh) * | 2018-12-29 | 2019-05-28 | 东软集团股份有限公司 | 一种数据处理的方法和装置 |
CN113098917B (zh) * | 2019-12-23 | 2024-06-04 | 华为云计算技术有限公司 | 迁移功能节点的方法和相关设备 |
CN116860723B (zh) * | 2023-09-04 | 2023-11-21 | 合肥中科类脑智能技术有限公司 | 跨计算中心数据迁移方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007364A (ja) * | 2000-06-22 | 2002-01-11 | Fujitsu Ltd | 並列計算機システムのジョブスケジューリングを行うスケジューリング装置 |
JP2007293761A (ja) | 2006-04-27 | 2007-11-08 | Internatl Business Mach Corp <Ibm> | エージェントの配置プログラム、方法、および装置 |
US9092250B1 (en) * | 2006-10-27 | 2015-07-28 | Hewlett-Packard Development Company, L.P. | Selecting one of plural layouts of virtual machines on physical machines |
US8230432B2 (en) * | 2007-05-24 | 2012-07-24 | International Business Machines Corporation | Defragmenting blocks in a clustered or distributed computing system |
JP5035708B2 (ja) | 2010-04-21 | 2012-09-26 | 日本電気株式会社 | 並列計算機システム、ジョブサーバ、ジョブスケジューリング方法及びジョブスケジューリングプログラム |
JP5827594B2 (ja) * | 2012-05-17 | 2015-12-02 | 日本電信電話株式会社 | 仮想マシン配置装置および仮想マシン配置方法 |
CN104008013B (zh) * | 2013-02-26 | 2018-02-09 | 华为技术有限公司 | 一种核资源分配方法、装置及众核系统 |
WO2014192132A1 (ja) * | 2013-05-31 | 2014-12-04 | 株式会社日立製作所 | 負荷分散装置及び方法 |
US9563470B2 (en) * | 2013-12-23 | 2017-02-07 | International Business Machines Corporation | Backfill scheduling for embarrassingly parallel jobs |
JP2015148909A (ja) * | 2014-02-05 | 2015-08-20 | 富士通株式会社 | 並列計算機システム、並列計算機システムの制御方法及び管理ノードの制御プログラム |
JP6364880B2 (ja) | 2014-03-31 | 2018-08-01 | 富士通株式会社 | 並列計算機システム,ジョブ管理装置の制御プログラム,及び並列計算機システムの制御方法 |
-
2016
- 2016-05-10 JP JP2016094792A patent/JP6666553B2/ja active Active
-
2017
- 2017-02-09 US US15/428,503 patent/US10394615B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017204086A (ja) | 2017-11-16 |
US20170329650A1 (en) | 2017-11-16 |
US10394615B2 (en) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9483319B2 (en) | Job scheduling apparatus and method therefor | |
US10055252B2 (en) | Apparatus, system and method for estimating data transfer periods for job scheduling in parallel computing | |
JP5932043B2 (ja) | 不揮発性記憶装置セットの揮発メモリ表現 | |
JP6364880B2 (ja) | 並列計算機システム,ジョブ管理装置の制御プログラム,及び並列計算機システムの制御方法 | |
JP6669961B2 (ja) | プロセッサ、再構成可能回路の制御方法及びプログラム | |
JPWO2012066640A1 (ja) | 計算機システム、マイグレーション方法及び管理サーバ | |
JP2010282420A (ja) | 管理計算機、リソース管理方法、リソース管理プログラム、記録媒体および情報処理システム | |
JP6666553B2 (ja) | 情報処理装置、ジョブ管理方法およびジョブ管理プログラム | |
US11586471B2 (en) | Computer system and control method for computer system | |
JP2019079334A (ja) | 情報処理装置、情報処理システムおよび情報処理方法 | |
CN112948279A (zh) | 管理存储系统中的访问请求的方法、设备和程序产品 | |
JP5515889B2 (ja) | 仮想マシンシステム、自動マイグレーション方法および自動マイグレーションプログラム | |
CN113535087B (zh) | 数据迁移过程中的数据处理方法、服务器及存储系统 | |
CN106571935B (zh) | 一种资源调度的方法与设备 | |
JP5867238B2 (ja) | オートスケーリング方法,オートスケーリングプログラムおよびコンピュータノード | |
US10061624B2 (en) | Parallel computing system, job management device, and job management method | |
CN107329798B (zh) | 数据复制的方法、装置和虚拟化系统 | |
CN114153549A (zh) | 一种虚拟机创建方法及相关设备 | |
US12028269B2 (en) | Method for optimal resource selection based on available GPU resource analysis in large-scale container platform | |
JP6683046B2 (ja) | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム | |
US10331489B2 (en) | Apparatus and method for executing maintenance processing on computers coupled via a multidimensional mesh or torus connection in a network | |
JP2017174194A (ja) | 画像処理装置、負荷分散方法および負荷分散プログラム | |
JP2016038888A (ja) | 情報処理システム、情報処理方法及び情報処理プログラム | |
JP6322968B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20240202027A1 (en) | Computer-readable recording medium storing resource management program, resource management method, and management device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6666553 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |