JP2016224875A - 並列計算機システム、保守装置、保守方法、および保守プログラム - Google Patents

並列計算機システム、保守装置、保守方法、および保守プログラム Download PDF

Info

Publication number
JP2016224875A
JP2016224875A JP2015113454A JP2015113454A JP2016224875A JP 2016224875 A JP2016224875 A JP 2016224875A JP 2015113454 A JP2015113454 A JP 2015113454A JP 2015113454 A JP2015113454 A JP 2015113454A JP 2016224875 A JP2016224875 A JP 2016224875A
Authority
JP
Japan
Prior art keywords
maintenance
area
job
execution
computers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015113454A
Other languages
English (en)
Other versions
JP6515686B2 (ja
Inventor
和広 松山
Kazuhiro Matsuyama
和広 松山
剛 橋本
Takeshi Hashimoto
剛 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015113454A priority Critical patent/JP6515686B2/ja
Priority to US15/161,407 priority patent/US10331489B2/en
Publication of JP2016224875A publication Critical patent/JP2016224875A/ja
Application granted granted Critical
Publication of JP6515686B2 publication Critical patent/JP6515686B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】並列計算機システムの保守処理に伴う稼働率の低下を抑止する。
【解決手段】並列計算機システムは、多次元のネットワーク1内にメッシュまたはトーラス接続で配置された複数の計算機2と、保守装置10とを有する。保守装置10は、保守処理の実行要求に応じ、2以上の計算機で実行するジョブの実行開始予定時刻を示す開始時刻情報に基づいて、保守処理の実行開始時刻後に実行する予定の実行予定ジョブを検出する。次に保守装置10は、実行予定ジョブを実行させる計算機群を包含する領域の各軸方向の長さを示す領域情報に基づいて、ネットワークの多次元の複数の軸それぞれについて、実行予定ジョブごとの領域の軸方向の長さの代表値を算出する。さらに保守装置10は、各軸の該代表値に基づいて、ネットワーク内の保守領域3を決定する。そして保守装置10は、該保守領域3内の計算機に対して保守処理を実行する。
【選択図】図1

Description

本発明は、並列計算機システム、保守装置、保守方法、および保守プログラムに関する。
コンピュータシステムを用いて科学技術計算などの大規模な計算を行う場合、複数の計算機を用いた並列計算が行われる。並列計算が可能なコンピュータシステムは、並列計算機システムと呼ばれる。
大規模な並列計算機システムは、並列計算を行う多数の計算機と、管理用計算機とが含まれる。管理用計算機は、計算機に実行させるジョブを管理する。例えば管理用計算機は、端末装置から投入されたジョブのスケジューリングを行い、実行開始予定時刻となったジョブを、1または複数の計算機に実行させる。
並列計算機システムの多数の計算機は、例えばメッシュまたはトーラス形のネットワークトポロジで接続されている。メッシュまたはトーラス接続のネットワークにおいて、複数の計算機に並列でジョブを実行させる場合、ネットワーク内に、空きノードのみを含むサブメッシュを定義する。3次元のネットワークの場合、サブメッシュは、ネットワーク内の立方体の領域となる。2次元のネットワークの場合、サブメッシュは、ネットワーク内の長方形の領域となる。ジョブをサブメッシュ内の計算機に実行させることで、異なるジョブの処理に関する計算機間の通信が互いに干渉するのを抑止できる。
並列ジョブを実行する複数の計算機を、1つのサブメッシュ内の計算機に限定すると、通信の干渉が確実に避けられる反面、どのジョブにも割り当てられていない一群の空き計算機が分散し、計算機群の断片化が生じる。計算機群の断片化とは、新規ジョブに割り当てるのに十分な数の空きの計算機を含むサブメッシュが設定できないため、新規のジョブに割り当てられない状況を言う。計算機群の断片化は、並列計算機システム全体としての稼働率を低下させる大きな要因となる。
なお、前述のジョブスケジューリングに関する技術としては、例えばジョブのマイグレーション処理を考慮したジョブスケジューリング技術がある。
特開2002−7364号公報
並列計算機システムに対して、ソフトウェアの更新などの保守処理が行われる場合がある。この場合、並列計算機システムを構成するすべての計算機を特定の期間停止して、システム保守処理を行うのが一般的である。しかし、すべて計算機を特定の期間停止させると、その期間内はジョブがまったく実行されず、その期間前後のシステム稼働率が大きく低下する。
なお、特定の期間中に空きの計算機から順次保守処理を実行することで、並列計算機システム全体の停止を避けることができる。この場合、保守適用済みの計算機群と保守未適用の計算機群が混在することによる、ジョブ割り当て可能な計算機群の断片化が促進される。すなわち、ジョブを実行中の計算機に加え、保守処理中の計算機についてもジョブに割り当てることができないため、割り当て可能な計算機群の断片化が促進される。しかも保守処理の内容がソフトウェアの更新のとき、保守済みの計算機と保守未適用の計算機に互換性が保証されない可能性がある。互換性が保証されない場合、1つの並列ジョブに対して割り当てられるべきサブメッシュに含まれる計算機は、すべてが保守適用済みか、あるいはすべてが保守未適用であることが要求される。この場合、ジョブを実行させる計算機群についての制約が厳しくなり、ジョブを実行できない可能性が高くなる。その結果、システムの稼働率がさらに低下する。
1つの側面では、本件は、並列計算機システムの保守処理に伴う稼働率の低下を抑止することを目的とする。
1つの案では、多次元のメッシュまたはトーラス接続のネットワーク内に配置された複数の計算機と、保守装置とを有する並列計算機システムが提供される。保守装置は、保守処理の実行要求に応じ、2以上の計算機で実行するジョブの実行開始予定時刻を示す開始時刻情報に基づいて、保守処理の実行開始時刻後に実行する予定の実行予定ジョブを検出する。次に保守装置は、実行予定ジョブを実行させる計算機群を包含する領域の各軸方向の長さを示す領域情報に基づいて、ネットワークの多次元の複数の軸それぞれについて、実行予定ジョブごとの領域の軸方向の長さの代表値を算出する。さらに保守装置は、各軸の該代表値に基づいて、ネットワーク内の保守領域を決定する。そして保守装置は、該保守領域内の計算機に対して保守処理を実行する。
1態様によれば、並列計算機システムの保守処理に伴う稼働率の低下が抑止される。
第1の実施の形態に係る並列計算機システムの構成例を示す図である。 第2の実施の形態の並列計算機システムの構成例を示す図である。 管理用計算機のハードウェアの一構成例を示す図である。 管理用計算機の機能を示すブロック図である。 スケジュールDBのデータの一例を示す図である。 保守設定情報の一例を示す図である。 保守処理の手順の一例を示すフローチャートである。 保守領域の大きさと形状計算処理の手順の一例を示すフローチャートである。 保守処理の実行手順の一例を示すフローチャートである。 保守領域候補の探索処理の一例を示すフローチャートである。 保守領域選択処理の手順の一例を示すフローチャートである。 各計算機の保守処理前の状態を示す図である。 保守領域候補リストの第1の例を示す図である。 1回目の保守処理実行後の各計算機の状態を示す図である。 保守領域候補リストの第2の例を示す図である。 2回目の保守処理実行後の各計算機の状態を示す図である。 保守領域候補リストの第3の例を示す図である。 3回目の保守処理実行後の各計算機の状態を示す図である。 保守領域候補リストの第4の例を示す図である。 4回目の保守処理実行後の各計算機の状態を示す図である。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る並列計算機システムの構成例を示す図である。並列計算機システムでは、複数の軸を有する多次元のネットワーク1内にメッシュまたはトーラス接続で配置された複数の計算機2が設けられている。複数の計算機2内の2以上の計算機により、ジョブを並列処理で実行することができる。
並列計算機システムは、ネットワーク1内の複数の計算機2それぞれに対する保守処理を実行する保守装置10を有している。保守装置10は、例えば複数の計算機2それぞれに対して、プログラムのアップデートなどの保守処理を遠隔操作によって実行する。
例えば保守装置10は、記憶部11と演算部12とを有する。記憶部11は、スケジュール情報11aを記憶する。例えばスケジュール情報11aには、2以上の計算機で並列実行するジョブの実行開始予定時刻を示す開始時刻情報と、ジョブを実行する計算機群を包含する領域の各軸方向の長さを示す領域情報が含まれる。領域情報により、例えば領域に求められる大きさや形状が定義される。領域の大きさとは、例えばその領域の含まれる計算機数で表される。また領域の各軸方向の長さの合計を、その領域の大きさとしてもよい。ネットワークが2次元の場合、領域のx軸方向とy軸方向との長さは、例えば(x,y)の形式で表される。領域の各軸方向の長さが(3,2)の場合、x軸方向に計算機3台分の長さを有し、y軸方向に計算機2台分の長さを有する形状であることを示している。領域の大きさは、「x軸方向の長さ×y軸方向の長さ」である。領域の各軸方向の長さが(3,2)であれば、領域の大きさは「6」(計算機6台分)となる。
演算部12は、保守処理の実行要求に応じ、スケジュール情報11aに基づいて、保守処理の実行開始時刻後に実行する予定の1以上の実行予定ジョブを検出する(ステップS1)。そして演算部12は、実行予定ジョブそれぞれに割り当てる計算機群を包含する領域の各軸方向の長さを示す領域情報に基づいて、該領域の各軸方向の長さの代表値などの統計情報を算出する(ステップS2)。例えば演算部12は、保守領域3の大きさ、各軸方向の長さの代表値、各軸方向の代表長さ比率、および保守領域3の各軸方向の長さを算出する。保守領域3の大きさは、保守領域3に含まれる計算機数である。ネットワークが2次元の場合、各値は例えば以下の式で計算される。
・保守領域の大きさ=各ジョブの領域の大きさの平均値+標準偏差
・x軸(y軸)方向の長さの代表値=各ジョブの領域のx軸(y軸)方向の長さの平均値
・x軸(y軸)方向の代表長さ比率=x軸(y軸)方向の長さの代表値/各軸の代表値の合計
・保守領域のx軸(y軸)方向の長さ=保守領域の大きさ×x軸(y軸)方向の代表長さ比率
なお、各軸方向の長さの代表値は、平均値以外の統計的な値(例えば、中央値や平均値を定数倍(例えば1.5倍)した値)を用いてもよい。また、保守領域の大きさを求める際には、標準偏差を加える代わりに標準偏差の定数倍(例えば2倍)を加えてもよい。
演算部12は、代表値に基づいて、ネットワーク1内の保守領域3を決定する(ステップS3)。例えば演算部12は、保守処理を実行していない未適用計算機を包含し、各軸方向の長さが代表値を用いて算出された保守領域3の各軸方向の長さとなるネットワーク1内の領域を、保守領域3とする。そして演算部12は、保守領域3内の計算機に対して保守処理を実行する(ステップS4)。演算部12は、保守領域3の決定(ステップS3)と、その保守領域3内の計算機の保守処理(ステップS4)とを、未適用計算機が存在しなくなるまで繰り返し実行する。
なお演算部12は、未適用計算機を包含し、各軸方向の長さが代表値を用いて算出された保守領域3の各軸方向の長さとなるネットワーク1内の領域が複数あるとき、そのうちの1つの領域を保守領域3とする。例えば演算部12は、保守処理が実行済みである適用済み計算機に隣接する計算機を最も多く含む領域を、保守領域3として決定する。演算部12は、決定時にジョブを実行している計算機と、決定時から保守処理の所用時間経過後までにジョブの実行を開始する予定がある計算機とを含まない領域を、保守領域3として決定するようにしてもよい。
また演算部12は、スケジュール情報11aに示されているジョブの実行開始予定時刻になると、そのジョブに計算機を割り当て、割り当てた計算機へのジョブの実行指示を行う(ステップS5)。例えば演算部12は、実行するジョブの領域情報に示される大きさと形状の領域であり、内包されるすべての計算機が、他のジョブを実行しておらず、保守処理も行われておらず、かつ保守状態が同じである領域を、ネットワーク1内から探索する。すべての計算機の保守状態が同じであるとは、すべての計算機が保守処理を実行していない(未適用計算機)か、あるいはすべての計算機が保守処理を実行済み(適用済み計算機)であるような状態である。演算部12による実行指示に応じて、計算機によりジョブが、例えば並列で実行される。
このような並列計算機システムによれば、実行予定のジョブの領域情報に基づいて、各軸方向の代表値が計算される。代表値を用いて、例えば保守領域3の大きさおよび形状が定義される。保守領域3の大きさおよび形状は、実行予定のジョブの大多数を実行可能な計算機群を含むように定義される。例えば、実行予定のジョブの所定の割合以上を実行可能な計算機群を含むように、保守領域3の大きさおよび形状が定義される。
そして定義された大きさおよび形状を有する保守領域3が、ネットワーク1内に決定され、その保守領域3に含まれる計算機の保守処理が実行される。保守領域3は、実行予定のジョブに割り当てる計算機群を包含する領域の平均的な大きさよりも大きい。そのため、保守領域3内の保守処理後の計算機群を用いて、ある程度の大きさまでの並列ジョブを実行させることができる。すなわち、第1の実施の形態では、ネットワーク1内に保守処理を適用済みの計算機と、保守処理を未適用の計算機とが混在している状況であっても、同じ保守状態の計算機が断片化することが抑止されている。従って、保守済みの計算機群と保守未適用の計算機群が混在することによる断片化の影響を制御可能な一定範囲内に抑止しながら、システム全体への保守適用を段階的に行うことが可能となっている。
また、保守領域3とすることが可能な領域がネットワーク1内に複数あるときは、例えば保守処理が実行済みである適用済み計算機に隣接する計算機を多く含む領域が、保守領域3として決定される。これにより、適用済み計算機が分散することを抑止し、ジョブに計算機群を割り当てる際に、適用済み計算機の集合を割り当てやすくなる。
さらに、保守領域を決定する際には、例えば決定時から保守の所要時間経過後までにジョブの実行を開始する予定がある計算機を含まない領域が、保守領域3として決定される。これにより、保守処理の実行が原因でジョブの実行予定が変更されることを抑止できる。
なお、演算部12は、例えば保守装置10が有するプロセッサにより実現することができる。また、記憶部11は、例えば保守装置10が有するメモリにより実現することができる。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。
図2は、第2の実施の形態の並列計算機システムの構成例を示す図である。並列計算機システムでは、ジョブを実行するための複数の計算機31,32,33,34・・・が、ネットワーク20を介して接続されている。またネットワーク20には、管理用計算機100と端末装置30が接続されている。管理用計算機100は、複数の計算機31,32,33,34・・・に対して実行させるジョブを管理するコンピュータである。また端末装置30は、システムの管理者が使用するコンピュータである。計算機31,32,33,34・・・同士は、メッシュまたはトーラス接続のネットワークトポロジにより、ファイバチャネルのような広帯域の伝送路で接続されている。
図3は、管理用計算機のハードウェアの一構成例を示す図である。管理用計算機100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、管理用計算機100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、管理用計算機100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの不揮発性の半導体記憶装置(SSD:Solid State Drive)を使用することもできる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、管理用計算機100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した装置も、図3に示した管理用計算機100と同様のハードウェアにより実現することができる。
管理用計算機100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。管理用計算機100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、管理用計算機100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また管理用計算機100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
図4は、管理用計算機の機能を示すブロック図である。管理用計算機100は、ジョブ管理部110と計算機保守部120とを有する。
ジョブ管理部110は、計算機31,32,・・・に実行させるジョブを管理する。ジョブ管理部110は、スケジュールDB111、ジョブ情報管理部112、ジョブスケジュール部113、およびジョブ実行制御部114を有する。
スケジュールDB111は、ジョブの実行スケジュールを記憶するデータベースである。例えばメモリ102またはHDD103の記憶領域の一部が、スケジュールDB111として使用される。
ジョブ情報管理部112は、実行するジョブが投入されると、投入されたジョブに関する情報を管理する。例えばジョブ情報管理部112は、実行するジョブに関する情報を端末装置30から受信すると、そのジョブスケジュール部113にジョブの実行のスケジューリングを依頼する。ジョブ情報管理部112は、ジョブスケジュール部113からスケジューリング結果を受信すると、スケジューリング結果をスケジュールDB111に格納する。またジョブ情報管理部112は、ジョブの実行開始予定時刻になると、ジョブに計算機を割り当て、そのジョブの実行開始予定時刻であることを、ジョブ実行制御部114に通知する。またジョブ情報管理部112は、ジョブの実行状態を管理しており、計算機保守部120に対して、各ジョブの実行状態を通知する。
ジョブ実行制御部114は、ジョブに対して計算機が割り当てられると、割り当てられた計算機にジョブの実行を指示する。例えばジョブ実行制御部114は、ジョブに複数の計算機が割り当てられた場合、その複数の計算機に対してジョブの並列実行を指示する。
計算機保守部120は、ジョブ管理部110と連携して動作し、計算機に対する保守処理を実行する。例えば計算機保守部120は、所定の大きさのサブメッシュないしサブトーラスの形状で保守用に予約された計算機群の保守領域を決定する。そして計算機保守部120は、保守領域に基づいて、計算機の保守処理を行う。例えば計算機保守部120は、計算機に搭載されているアプリケーションソフトウェアのバージョンアップ作業を、遠隔操作によって自動実行する。計算機保守部120は、計算機の保守処理を行うために、保守管理部121、保守領域計算部122、および保守実行部123を有する。
保守管理部121は、実施する保守処理の内容を管理する。例えば保守管理部121は、端末装置30から保守内容を示す保守設定情報121aを取得し、メモリ102に格納する。また保守管理部121は、ジョブ管理部110と通信し、実行中のジョブと、そのジョブに割り当てられている計算機とに関する情報を取得する。保守管理部121は、保守処理の実行開始時刻になると、ジョブ管理部110から取得した情報と、保守設定情報121aとを保守領域計算部122に送信し、保守領域の計算を依頼する。
保守領域計算部122は、未処理のジョブの形状に応じて、保守領域の形状を計算する。ジョブの形状は、ジョブに割り当てる計算機群を含むサブメッシュの形状である。ジョブの形状は、ジョブの実行を要求するユーザによって予め指定されている。例えば保守領域計算部122は、実行待ちのジョブのうちの所定の割合以上のジョブが保守領域に入るよう、保守領域の大きさと形状を算出する。
保守実行部123は、算出した保守領域の大きさと形状に基づいて、ネットワーク内に保守領域を確保し、確保した保守領域に含まれる計算機に対して保守処理を行う。例えば保守実行部123は、ネットワーク内から保守領域候補となる領域を探索する。保守領域候補は、これから実行する予定のジョブの大きさと形状に応じた大きさと形状とを有する、保守処理が未適用の計算機を含む領域である。見つかった保守領域候補は、例えば保守領域候補リスト123aに登録される。保守領域候補リスト123aは、例えばメモリ102に格納される。保守実行部123は、保守領域候補リスト123aに登録された保守領域候補の中から、適切な保守領域候補を選択し、保守領域とする。そして保守実行部123は、保守領域内の、保守処理が未適用の計算機に対して保守処理を実行する。
各計算機31,32,・・・は、ジョブ実行部31a,32a,・・・を有している。ジョブ実行部31a,32a,・・・は、管理用計算機100からの指示に従ってジョブを実行する。
なお、図4に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図4に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
次に、スケジュールDB111に格納されるデータについて具体的に説明する。
図5は、スケジュールDBのデータの一例を示す図である。スケジュールDB111には、計算機管理テーブル111aとジョブ実行予定テーブル111bとが格納されている。
計算機管理テーブル111aには、計算機名、座標、実行予定ジョブリスト、ジョブ状態、および保守状態の欄が設けられている。計算機名の欄には、計算機の名称が設定される。座標の欄には、メッシュまたはトーラス網における計算機の位置を示す座標が設定される。実行予定ジョブリストの欄には、計算機で実行する予定のジョブのリストが設定される。ジョブ状態の欄には、計算機がジョブを実行中なのか実行していない(未実行)のかが設定される。保守状態の欄には、計算機に対して保守処理を適用したか否かが設定される。
ジョブ実行予定テーブル111bには、ジョブ名、ジョブ形状、開始予定時刻、および所要時間の欄が設けられている。ジョブ名の欄には、実行予定のジョブのジョブ名が設定される。ジョブ形状の欄には、ジョブに割り当てる計算機群が占める領域(サブメッシュ)の形状が設定される。ジョブ形状は、例えばx軸、y軸、z軸方向の長さで指定される。開始予定時刻の欄には、ジョブの開始予定時刻が設定される。所要時間の欄には、ジョブの所要時間が設定される。
次に、保守設定情報121aについて具体的に説明する。
図6は、保守設定情報の一例を示す図である。保守設定情報121aには、全体保守開始時刻、保守プログラム、および保守処理所要時間が含まれる。全体保守開始時刻は、システム全体に対して保守処理を開始する時刻である。保守プログラムは、各計算機に対する保守処理の自動実行処理手順が記述されたプログラムである。保守処理所要時間は、計算機1台当たりの保守処理の所要時間である。
以上のような構成の管理用計算機100を用いて、ネットワーク20内の各計算機31,32,・・・に対して、所定の保守処理が行われる。以下、保守処理について詳細に説明する。
図7は、保守処理の手順の一例を示すフローチャートである。
[ステップS101]計算機保守部120の保守管理部121は、端末装置30からの保守設定入力を受け付ける。保守管理部121は、入力内容を、保守設定情報121aとしてメモリ102に格納する。
[ステップS102]保守管理部121は、保守設定情報121aに示される全体保守開始時刻になったか否かを判断する。全体保守開始時刻になった場合、保守管理部121は、保守領域計算部122に保守設定情報121aを送信すると共に、保守領域の計算を指示し、処理をステップS103に進める。全体保守開始時刻になっていなければ、ステップS102の処理が繰り返される。
[ステップS103]保守領域計算部122は、保守領域の大きさと形状を計算する。この処理の詳細は後述する(図8参照)。
[ステップS104]保守実行部123は、保守領域計算部122から、保守領域の大きさと形状との計算結果を取得し、1つの保守領域内の各計算機に対して保守処理を実行する。保守処理実行処理の詳細は後述する。
[ステップS105]保守実行部123は、すべての計算機に対する保守処理が完了したか否かを判断する。保守処理が完了した場合、処理が終了する。保守処理が完了していなければ、処理がステップS104に進められ、別の保守領域内の計算機を対象とした保守処理が実行される。
次に、保守領域の大きさと形状の計算手順について説明する。
図8は、保守領域の大きさと形状計算処理の手順の一例を示すフローチャートである。
[ステップS111]保守領域計算部122は、保守領域の大きさを算出する。例えば保守領域計算部122は、ジョブ実行予定テーブル111bに示されている実行予定のジョブのうち、全体保守開始時刻後に実行される予定のジョブ(実行予定ジョブ)の情報を用いて、以下の計算を行う。
<保守領域の大きさ>=<ジョブの大きさの平均値>+<ジョブの大きさの標準偏差>
ここで、ジョブの大きさは、ジョブに割り当てる計算機数であり、ジョブ形状の各軸方向の長さを乗算することで算出できる。例えば図5のジョブ実行予定テーブル111bに示す「jobA」の大きさは、「2×2×2=8」である。実行予定ジョブの大きさの算術平均を計算することで、「ジョブの大きさの平均値」が得られる。また各実行予定ジョブの大きさに基づいて、ジョブの大きさの標準偏差を算出できる。ジョブの大きさの標準偏差は、ジョブの大きさの分散の正の平方根であり、ジョブの大きさのばらつきの度合いを表している。ジョブの大きさの平均値に、ジョブの大きさの標準偏差を加算した値を保守領域の大きさとすることで、実行予定ジョブの大多数を実行可能な大きさの領域を、保守領域とすることができる。
[ステップS112]保守領域計算部122は、ジョブ形状の各軸の長さの平均値を算出する。例えば保守領域計算部122は、実行予定ジョブそれぞれの形状からx軸方向の長さを抽出し、抽出した長さの算術平均を、x軸方向の平均値とする。同様に、y軸方向、およびz軸方向の長さの平均値が求められる。
[ステップS113]保守領域計算部122は、保守領域の各軸の長さを算出する。保守領域の各軸の長さの算出に当たり、保守領域計算部122は、まずジョブの各軸方向の代表長さ比率を、以下の式で計算する。
<ジョブのx軸方向の代表長さ比率>
=<ジョブのx軸方向の長さの平均値>/<ジョブの各軸方向の長さの平均値の合計>
<ジョブのy軸方向の代表長さ比率>
=<ジョブのy軸方向の長さの平均値>/<ジョブの各軸方向の長さの平均値の合計>
<ジョブのz軸方向の代表長さ比率>
=<ジョブのz軸方向の長さの平均値>/<ジョブの各軸方向の長さの平均値の合計>
このようにして、各軸方向の代表長さ比率が求められる。各軸方向の代表長さ比率を用いて、以下の式により、保守領域の各軸方向の長さが求められる。
<保守領域のx軸方向の長さ>
=<保守領域の大きさ>×<ジョブのx軸方向の代表長さ比率>
<保守領域のy軸方向の長さ>
=<保守領域の大きさ>×<ジョブのy軸方向の代表長さ比率>
<保守領域のz軸方向の長さ>
=<保守領域の大きさ>×<ジョブのz軸方向の代表長さ比率>
なお各軸方向の長さの計算結果における小数点以下の値は、切り上げられる。保守領域計算部122は、算出した「保守領域の大きさと形状」を入力とし、保守実行部123に保守処理実行命令を出力する。
次に、保守処理の実行手順について詳細に説明する。
図9は、保守処理の実行手順の一例を示すフローチャートである。
[ステップS121]保守実行部123は、ジョブ情報管理部112に問い合わせ、計算機に関するデータを取得する。例えばジョブ情報管理部112は、保守実行部123からの問い合わせに応じ、計算機管理テーブル111aに格納されている情報を、保守実行部123に送信する。
[ステップS122]保守実行部123は、保守領域候補を探索する。この処理の詳細は後述する(図10参照)。
[ステップS123]保守実行部123は、少なくとも1つの保守領域候補が見つかったか否かを判断する。保守領域候補が見つかった場合、処理がステップS125に進められる。保守領域候補が見つからなかった場合、処理がステップS124に進められる。
[ステップS124]保守実行部123は、現在実行中のジョブの少なくとも1つが終了するのを待つ。例えばジョブ情報管理部112が、少なくとも1つのジョブの実行が終了した場合、ジョブの実行が終了したことを保守実行部123に通知する。保守実行部123は、ジョブ情報管理部112からの通知により、ジョブの実行が終了したことを認識する。ジョブが終了すると、処理がステップS121に進められる。
[ステップS125]保守実行部123は、保守領域候補がある場合、その保守領域候補から保守領域を選択する。保守領域選択処理の詳細については後述する(図11参照)。
[ステップS126]保守実行部123は、選択した保守領域内の計算機のうち、保守処理を未適用の計算機に対して、保守処理の実行を指示する。この際、保守実行部123は、例えば保守を実行する計算機の保守状態を「適用中」に変更した後、保守処理を開始してもよい。保守状態を変更する場合、例えば保守実行部123からジョブ情報管理部112に対して、保守処理を実行する計算機の計算機名が通知される。するとジョブ情報管理部112が、計算機管理テーブル111aにおける該当する計算機の保守状態を「適用中」に更新する。
保守処理は、保守プログラムを用いて行われる。例えば保守実行部123は、保守処理対象の計算機に対して保守プログラムを送信すると共に、保守プログラムの実行を指示する。実行指示を受け取った各計算機は、保守プログラムを実行する。これにより、計算機に対する保守処理が自動で実行される。保守処理が終了した計算機は、保守実行部123に対して、作業終了の応答を送信する。保守実行部123は、保守処理対象のすべての計算機から作業終了の応答を受信すると、処理をステップS127に進める。
[ステップS127]保守実行部123は、保守処理を実施した計算機の保守状態を、「適用済」に更新する。例えば保守実行部123は、ジョブ情報管理部112に対して、保守処理を実施した計算機の名称を通知する。するとジョブ情報管理部112が、計算機管理テーブル111aにおける該当する計算機の保守状態を「適用済」に更新する。
このようにして、ネットワーク20上に、所定の形状およびサイズの保守領域が設定され、保守領域内の計算機の保守処理がまとめて実行される。
次に、保守領域候補の探索処理について詳細に説明する。
図10は、保守領域候補の探索処理の一例を示すフローチャートである。
[ステップS121]保守実行部123は、保守領域の大きさおよび形状を有し、保守処理が未適用の計算機を含む領域のうち、まだステップS122〜S124の処理を実施していない領域を、ネットワーク内から探索する。
[ステップS122]保守実行部123は、ステップS121において領域が検出されたか否かを判断する。領域が検出された場合、処理がステップS123に進められる。領域が検出されていなければ、保守領域候補の探索処理が終了する。
[ステップS123]保守実行部123は、検出した領域内の未適用の計算機について、保守時間が取れるか否かを判断する。例えば保守実行部123は、ジョブ情報管理部112を介して、検出した領域内の未適用の計算機それぞれの、実行予定ジョブリストを取得する。次に保守実行部123は、ジョブ情報管理部112を介して、取得した実行予定ジョブリストに含まれるジョブの開始予定時刻を取得する。さらに保守実行部123は、取得した開始予定時刻の最も早い時刻と、現在の時刻との差分の時間を計算する。すなわち、いずれかの計算機でジョブが実行されるまでの猶予時間が計算される。保守実行部123は、計算した時間が、保守処理所要時間よりも長い場合、保守時間が取れると判断する。保守時間がとれる場合、処理がステップS124に進められる。保守時間がとれない場合、処理がステップS121に進められる。
[ステップS124]保守実行部123は、検出した領域を保守領域候補として、保守領域候補リスト123aに登録する。その後、処理がステップS121に進められる。
このようにして、ジョブ状態が未実行かつ、保守状態が「未適応」の計算機を含み、保守領域の大きさと形状を当てはめられる領域が探索され、見つけ出された領域が、保守領域候補して保守領域候補リストに登録される。このとき保守実行部123は、システムの端やジョブ領域、保守済領域に囲まれ、十分な大きさを取れない領域でも、その領域を保守領域候補に含めることができる。また保守実行中に次のジョブが実行される予定がある計算機を含む領域は、保守領域候補から除外される。
次に、保守領域選択処理について詳細に説明する。
図11は、保守領域選択処理の手順の一例を示すフローチャートである。
[ステップS141]保守実行部123は、探索により見つかった保守領域候補の中から、未適用の計算機数が最も多い保守領域候補を抽出する。
[ステップS142]保守実行部123は、ステップS141において複数の保守領域候補が抽出されたか否かを判断する。複数の保守領域候補が抽出された場合、処理がステップS144に進められる。抽出された保守領域候補が1つだけであれば、処理がステップS143に進められる。
[ステップS143]保守実行部123は、ステップS141で抽出した保守領域候補を保守領域として選択し、保守領域選択処理を終了する。
[ステップS144]保守実行部123は、ステップS141で抽出した複数の保守領域候補のなかで、適用済みの計算機に隣接する計算機数が最も多い保守領域候補を抽出する。
[ステップS145]保守実行部123は、ステップS144において複数の保守領域候補が抽出されたか否かを判断する。複数の保守領域候補が抽出された場合、処理がステップS147に進められる。抽出された保守領域候補が1つだけであれば、処理がステップS146に進められる。
[ステップS146]保守実行部123は、ステップS144で抽出した保守領域候補を保守領域として選択し、保守領域選択処理を終了する。
[ステップS147]保守実行部123は、ステップS144で抽出した複数の保守領域候補のなかで、メッシュ接続のネットワーク20の端にある計算機数が最も多い保守領域候補を抽出する。
[ステップS148]保守実行部123は、ステップS147で抽出した保守領域候補のうちの1つを、保守領域として選択する。
このようにして、複数の保守領域候補から、適切な1つの保守領域候補が、保守領域として選択される。例えば保守領域候補が複数あった場合は、保守候補領域に隣接する、保守済みの計算機数が最大の保守候補領域が、保守領域として選択される。保守済みの多数の計算機に隣接している領域内の計算機に対して優先的に保守処理を実施することで、保守済みの計算機が集まった領域を、早期に拡大することができる。その結果、保守領域の大きさよりも大きな形状を有するジョブについても実行可能となる。
なお、全体保守開始時刻後は、ネットワーク内に、保守適用済みの領域と、保守未適用の領域ができ、それらに跨ったジョブは実行できなくなる。そのため、ジョブスケジュール部113は、計算機管理テーブル111a内の各計算機の保守状態に基づき、実行予定のジョブごとに、そのジョブのジョブ形状に応じた、適用済の計算機のみの領域、または未適用の計算機のみの領域を探索する。いずれかの領域が見つかれば、その領域内の計算機がジョブに割り当てられる。ジョブスケジュール部113は、どちらにも割り当てられないようなジョブは一旦待ち状態とし、保守処理を優先させ、適用済領域が広がって実行できるような状況になるのを待つ。
以下、図12〜図20を参照し、保守処理の実施例を具体的に説明する。
図12は、各計算機の保守処理前の状態を示す図である。図12には、6×4の2次元配列のメッシュ接続のネットワークトポロジをもつ並列計算機システムの例を示している。図中、横方向にx軸、縦方向にy軸を採っている。実線の矩形は、計算機を表している。各計算機の位置は、x−yの座標値で表される。図12中の左下の計算機の位置は(0,0)であり、右上の計算機の位置は(5,3)である。
ジョブを実行中の計算機を表す矩形内には、ジョブ名が示されている。図12の例は、領域41内の計算機により「ジョブA」が実行されている。また領域42内の計算機により「ジョブB」が実行されている。また、すべての計算機が、保守処理を未適用である。
このような状況において、3×2の保守領域を選択する場合を考える。この場合、複数の保守領域候補51〜56が存在する。保守領域候補51〜56の範囲は、例えば、保守領域候補の左下の座標値と右上の座標値とで表される。保守領域候補51であれば、範囲が(0,2)から(3,4)と表される。計算機の位置を(xa、ya)としたとき、0≦xa<3であり、かつが2≦ya<4を満たす場合に、その計算機が保守領域候補51内にあると判断できる。
存在する保守領域候補51〜56は、保守領域候補リスト123aに登録される。
図13は、保守領域候補リストの第1の例を示す図である。保守領域候補リスト123aには、番号、領域、適用済み計算機に隣接する計算機数、システムの端の計算機数、および未適用計算機数の欄が設けられている。番号の欄には、登録された保守領域候補の識別番号が設定される。領域の欄には、保守領域候補の範囲が設定される。適用済み計算機に隣接する計算機数の欄には、保守領域候補の範囲内の計算機のうち、既に保守処理を適用済みの計算機と隣接している計算機の数が設定される。システムの端の計算機数の欄には、保守領域候補の範囲内の計算機のうち、メッシュ接続のネットワークの端にある計算機の数が設定される。未適用計算機数の欄には、保守領域候補の範囲内の計算機のうち、保守処理が未適用の計算機の数が設定される。
図13の例では、すべての保守領域候補について、適用済み計算機に隣接する計算機数は「0」である。そこで、未適用の計算機数が最大の「6」である2つの保守領域候補のうち、システムの端の計算機数が大きい方の保守領域候補(番号「1」)が、保守領域として選択される。そして、保守領域内の各計算機に対して、保守処理の実行が開始される。
その後、3×2の「ジョブC」が投入され、保守完了前に「ジョブA」が終了したものとする。すると、左下(0,0)から右上(3,2)で表される長方形の領域内の計算機で「ジョブC」を実行するようにスケジュールされる。
さらにその後、保守処理が完了すると、保守処理を実施した計算機の保守状態が「適用済」に更新される。そして、次の保守領域の選択処理が行われる。
図14は、1回目の保守処理実行後の各計算機の状態を示す図である。図14の例では、「ジョブA」が終了し、領域43内の計算機により「ジョブC」が実行されている。また前回の保守領域選択処理で選択された保守領域内の保守状態は、「適用済」に変更されている。
このような状態において保守領域候補の探索が行われると、例えば保守領域候補61〜63が見つけ出される。そして、各保守領域候補61〜63が登録された保守領域候補リストが生成される。
図15は、保守領域候補リストの第2の例を示す図である。保守領域候補リスト123aには、図14に示した各保守領域候補61〜63が登録されている。図15の例では、未適用の計算機数が最大の「6」である2つの保守領域候補のうち、隣接する適用済み計算機数が大きい方の保守領域候補(番号「1」)が、保守領域として選択される。そして、保守領域内の各計算機に対して、保守処理の実行が開始される。
その後、保守処理が完了すると、保守処理を実施した計算機の保守状態が「適用済」に更新される。そして、次の保守領域の選択処理が行われる。この時点で「ジョブB」の実行が終了しているものとする。
図16は、2回目の保守処理実行後の各計算機の状態を示す図である。図16の例では、「ジョブB」が終了している。また前回の保守処理が完了したことにより、例えば左下(0,2)から右上(6,3)の範囲の6×1の形状のジョブを実行できるようになっている。
このような状態において保守領域候補の探索が行われると、例えば保守領域候補71,72が見つけ出される。そして、各保守領域候補71,72が登録された保守領域候補リストが生成される。
図17は、保守領域候補リストの第3の例を示す図である。保守領域候補リスト123aには、図16に示した各保守領域候補71,72が登録されている。図17の例では、未適用の計算機数が最大の「3」である2つの保守領域候補のうち、隣接する適用済み計算機数が大きい方の保守領域候補(番号「2」)が、保守領域として選択される。そして、保守領域内の、保守処理が未適用の各計算機に対して、保守処理の実行が開始される。
その後、4×2の「ジョブD」が投入され、保守完了前に「ジョブC」が終了したものとする。すると、左下(0,2)から右上(4,4)で表される長方形の領域内の計算機で「ジョブD」を実行するようにスケジュールされる。
さらにその後、保守処理が完了すると、保守処理を実施した計算機の保守状態が「適用済」に更新される。そして、次の保守領域の選択処理が行われる。
図18は、3回目の保守処理実行後の各計算機の状態を示す図である。図18の例では、「ジョブC」が終了し、領域44内の計算機により「ジョブD」が実行されている。このような状態において保守領域候補の探索が行われると、例えば保守領域候補81〜84が見つけ出される。そして、各保守領域候補81〜84が登録された保守領域候補リストが生成される。
図19は、保守領域候補リストの第4の例を示す図である。保守領域候補リスト123aには、図18に示した各保守領域候補81〜84が登録されている。図19の例では、未適用の計算機数が最大の「6」である保守領域候補が1つだけのため、その保守領域候補(番号「1」)が、保守領域として選択される。そして、保守領域内の各計算機に対して、保守処理の実行が開始される。
その後、保守処理が完了すると、保守処理を実施した計算機の保守状態が「適用済」に更新される。そして、次の保守領域の選択処理が行われる。
図20は、4回目の保守処理実行後の各計算機の状態を示す図である。図20に示す状態において保守領域候補の探索が行われると、保守領域候補91が見つけ出される。そして、保守領域候補91が保守領域として選択され、保守領域内の各計算機に対して、保守処理の実行が開始される。その結果、すべての計算機に対する保守処理が完了する。
このような保守処理を実施することで、保守済みの計算機群と保守未適用の計算機群が混在する事による断片化の影響を、制御可能な一定範囲内に抑えつつ、システム全体への保守適用を段階的に行うことが可能になる。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
1 ネットワーク
2 計算機
3 保守領域
10 保守装置
11 記憶部
11a スケジュール情報
12 演算部

Claims (8)

  1. 多次元のメッシュまたはトーラス接続のネットワーク内に配置された複数の計算機と、
    保守処理の実行要求に応じ、2以上の計算機で実行するジョブの実行開始予定時刻を示す開始時刻情報に基づいて、前記保守処理の実行開始時刻後に実行する予定の実行予定ジョブを検出し、前記実行予定ジョブを実行させる計算機群を包含する領域の各軸方向の長さを示す領域情報に基づいて、前記ネットワークの多次元の複数の軸それぞれについて、前記実行予定ジョブごとの前記領域の軸方向の長さの代表値を算出し、各軸の該代表値に基づいて、前記ネットワーク内の保守領域を決定し、該保守領域内の計算機に対して前記保守処理を実行する保守装置と、
    を有する並列計算機システム。
  2. 前記保守装置は、前記実行予定ジョブごとの領域に含まれる計算機数の平均値に対して、前記実行予定ジョブごとの領域に含まれる計算機数の標準偏差を加算し、加算結果に応じた数の計算機を包含する領域を、前記保守領域とする、
    請求項1記載の並列計算機システム。
  3. 前記保守装置は、各軸方向の長さの代表値に基づいて、前記保守領域の各軸方向の長さを決定し、各軸方向に決定された長さを有すると共に前記保守処理を実行していない未適用計算機を包含する領域を、前記ネットワーク内から探索し、該領域を前記保守領域として決定する、
    請求項1または2記載の並列計算機システム。
  4. 前記保守装置は、前記探索により複数の領域が検出された場合、前記保守処理が実行済みである適用済み計算機に隣接する計算機を多く含む領域を、前記保守領域として決定する、
    請求項3記載の並列計算機システム。
  5. 前記保守装置は、前記保守領域の決定時にジョブを実行している計算機と、該決定時から前記保守処理の所要時間経過後までにジョブの実行を開始する予定がある計算機とを含まない領域を、前記保守領域として決定する、
    請求項1乃至4のいずれかに記載の並列計算機システム。
  6. 多次元のメッシュまたはトーラス接続のネットワーク内に配置された複数の計算機の保守処理を行う保守装置であって、
    2以上の計算機で実行するジョブの実行開始予定時刻を示す開始時刻情報と、該ジョブを実行させる計算機群を包含する領域の各軸方向の長さを示す領域情報とを記憶する記憶部と、
    保守処理の実行要求に応じ、前記開始時刻情報に基づいて、前記保守処理の実行開始時刻後に実行する予定の実行予定ジョブを検出し、前記実行予定ジョブの前記領域についての領域情報に基づいて、前記ネットワークの多次元の複数の軸それぞれについて、前記実行予定ジョブごとの前記領域の軸方向の長さの代表値を算出し、各軸の該代表値に基づいて、前記ネットワーク内の保守領域を決定し、該保守領域内の計算機に対して前記保守処理を実行する演算部と、
    を有する保守装置。
  7. 多次元のメッシュまたはトーラス接続のネットワーク内に配置された複数の計算機の保守処理を行う保守方法であって、
    コンピュータが、
    保守処理の実行要求に応じ、2以上の計算機で実行するジョブの実行開始予定時刻を示す開始時刻情報に基づいて、前記保守処理の実行開始時刻後に実行する予定の実行予定ジョブを検出し、
    前記実行予定ジョブを実行させる計算機群を包含する領域の各軸方向の長さを示す領域情報に基づいて、前記ネットワークの多次元の複数の軸それぞれについて、前記実行予定ジョブごとの前記領域の軸方向の長さの代表値を算出し、
    各軸の該代表値に基づいて、前記ネットワーク内の保守領域を決定し、
    該保守領域内の計算機に対して前記保守処理を実行する、
    保守方法。
  8. 多次元のメッシュまたはトーラス接続のネットワーク内に配置された複数の計算機の保守処理を行うための保守プログラムであって、
    コンピュータに、
    保守処理の実行要求に応じ、2以上の計算機で実行するジョブの実行開始予定時刻を示す開始時刻情報に基づいて、前記保守処理の実行開始時刻後に実行する予定の実行予定ジョブを検出し、
    前記実行予定ジョブを実行させる計算機群を包含する領域の各軸方向の長さを示す領域情報に基づいて、前記ネットワークの多次元の複数の軸それぞれについて、前記実行予定ジョブごとの前記領域の軸方向の長さの代表値を算出し、
    各軸の該代表値に基づいて、前記ネットワーク内の保守領域を決定し、
    該保守領域内の計算機に対して前記保守処理を実行する、
    処理を実行させる保守プログラム。
JP2015113454A 2015-06-03 2015-06-03 並列計算機システム、保守装置、保守方法、および保守プログラム Expired - Fee Related JP6515686B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015113454A JP6515686B2 (ja) 2015-06-03 2015-06-03 並列計算機システム、保守装置、保守方法、および保守プログラム
US15/161,407 US10331489B2 (en) 2015-06-03 2016-05-23 Apparatus and method for executing maintenance processing on computers coupled via a multidimensional mesh or torus connection in a network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015113454A JP6515686B2 (ja) 2015-06-03 2015-06-03 並列計算機システム、保守装置、保守方法、および保守プログラム

Publications (2)

Publication Number Publication Date
JP2016224875A true JP2016224875A (ja) 2016-12-28
JP6515686B2 JP6515686B2 (ja) 2019-05-22

Family

ID=57451076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015113454A Expired - Fee Related JP6515686B2 (ja) 2015-06-03 2015-06-03 並列計算機システム、保守装置、保守方法、および保守プログラム

Country Status (2)

Country Link
US (1) US10331489B2 (ja)
JP (1) JP6515686B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304261B (zh) * 2017-12-29 2022-05-24 曙光信息产业(北京)有限公司 一种基于6D-Torus网络的作业调度方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067331A (ja) * 2000-07-14 2001-03-16 Hitachi Ltd マルチプロセッサシステムの無停止プログラム変更方法およびマルチプロセッサシステム
JP2010267025A (ja) * 2009-05-13 2010-11-25 Fujitsu Ltd ジョブスケジューリングプログラム、ジョブスケジューリング装置及びジョブスケジューリング方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007364A (ja) 2000-06-22 2002-01-11 Fujitsu Ltd 並列計算機システムのジョブスケジューリングを行うスケジューリング装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067331A (ja) * 2000-07-14 2001-03-16 Hitachi Ltd マルチプロセッサシステムの無停止プログラム変更方法およびマルチプロセッサシステム
JP2010267025A (ja) * 2009-05-13 2010-11-25 Fujitsu Ltd ジョブスケジューリングプログラム、ジョブスケジューリング装置及びジョブスケジューリング方法

Also Published As

Publication number Publication date
US20160357603A1 (en) 2016-12-08
JP6515686B2 (ja) 2019-05-22
US10331489B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
JP6616827B2 (ja) スケーラブルなデータストレージプール
US9483319B2 (en) Job scheduling apparatus and method therefor
US8429664B2 (en) Job scheduling apparatus and job scheduling method
JP5862359B2 (ja) シンクライアントシステム、接続管理サーバ、接続管理方法、及び接続管理プログラム
JP2010282420A (ja) 管理計算機、リソース管理方法、リソース管理プログラム、記録媒体および情報処理システム
JP2014228983A (ja) 作業管理装置、作業管理方法及びコンピュータプログラム
US10394615B2 (en) Information processing apparatus and job management method
JP2007328711A (ja) 無共有型データベースシステムの構成変更方法、管理サーバ及び無共有型データベースシステム
US11586471B2 (en) Computer system and control method for computer system
JP2018106440A (ja) プログラマブルコントローラ、管理装置および制御システム
JP6515686B2 (ja) 並列計算機システム、保守装置、保守方法、および保守プログラム
JP6642024B2 (ja) 管理装置,管理方法および管理プログラム
JP2008293278A (ja) 分散処理プログラム、分散処理装置、および分散処理方法
JP2011221634A (ja) 計算機システム、論理区画管理方法及び論理分割処理プログラム
US9298517B2 (en) Exclusive control request allocation method and system
JP5045576B2 (ja) マルチプロセッサシステム及びプログラム実行方法
JP2008139907A (ja) ジョブ割当プログラム及びジョブ割当方法
US10319436B2 (en) System including programmable integrated circuit including first areas having same shape and second areas formed between first areas, and operation processing device and method for controlling the programmable integrated circuit
US9654560B2 (en) Management system and method
TWI455030B (zh) 決定程式任務之平行度的方法與計算裝置及其機器可讀取媒體
JP6304153B2 (ja) ライセンス管理システムおよびライセンス管理方法
JP7320659B1 (ja) 情報処理システム及び情報処理方法
JP2019067274A (ja) 生成プログラム、生成方法、及び情報処理装置
US20170147408A1 (en) Common resource updating apparatus and common resource updating method
JP2015088134A (ja) 並列計算機システム、制御装置、並列計算機システムの制御方法及び制御装置の制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190401

R150 Certificate of patent or registration of utility model

Ref document number: 6515686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees