JP6562093B2 - システム管理装置 - Google Patents

システム管理装置 Download PDF

Info

Publication number
JP6562093B2
JP6562093B2 JP2018008650A JP2018008650A JP6562093B2 JP 6562093 B2 JP6562093 B2 JP 6562093B2 JP 2018008650 A JP2018008650 A JP 2018008650A JP 2018008650 A JP2018008650 A JP 2018008650A JP 6562093 B2 JP6562093 B2 JP 6562093B2
Authority
JP
Japan
Prior art keywords
power saving
node
management unit
software update
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018008650A
Other languages
English (en)
Other versions
JP2019128695A (ja
Inventor
拓也 鷲尾
拓也 鷲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018008650A priority Critical patent/JP6562093B2/ja
Priority to US16/242,198 priority patent/US10928883B2/en
Publication of JP2019128695A publication Critical patent/JP2019128695A/ja
Application granted granted Critical
Publication of JP6562093B2 publication Critical patent/JP6562093B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3228Monitoring task completion, e.g. by use of idle timers, stop commands or wait commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Stored Programmes (AREA)
  • Power Sources (AREA)

Description

本発明は、システム管理装置、制御方法、およびプログラムに関する。
複数の計算ノードを有する計算機システムが各種提案ないし実用化されている。例えば、複数の計算ノードが協調して動作することによって並列処理アプリケーションプログラムを高速に実行する高速処理コンピューティング(HPC)クラスタがある。
また、複数の計算ノードを有する計算機システムにおける各計算ノードにインストールされたソフトウェアを更新(修正)する方法の一例が特許文献1に記載されている。特許文献1に記載されたソフトウェア更新方法では、修正データが入力されると、ジョブを実行していない計算ノードから順に運用を停止してソフトウェアの修正を適用することにより、計算機システム全体の運用を継続しながらソフトウェアのアップデータを行っている。
また、複数の計算ノードを有する計算機システム全体の省電力化を図る方法の一例が特許文献2に記載されている。特許文献2に記載された省電力化方法では、計算ノードがアイドル状態のときに当該計算ノードの動作を停止させている。
特許第4545225号公報 特開2003−162515号公報
上述したように複数の計算ノードを有する計算機システムにおいて、一部の計算ノードの運用を順に停止させてソフトウェア更新を行う仕組み、および一部の計算ノードを停止させてシステム全体の省電力化を図る仕組みが提案されている。しかしながら、それら2つの仕組みは互いに独立しており、互いに関連するものではなかった。そのため、それら2つの仕組みを兼ね備えた計算機システムでは、省電力化のために一部の計算ノードが停止している状態において、ソフトウェア更新のために更に一部の計算ノードが停止する状態が発生する恐れがあった。このような状態が発生すると、最悪時にはジョブを割当可能な計算ノードが極端に不足し、計算機システムのジョブ運用が停止する恐れがあった。
本発明の目的は、上述した課題を解決するシステム管理装置を提供することにある。
本発明の一形態に係るシステム管理装置は、
複数の計算ノードを有する計算機システムを管理するシステム管理装置であって、
前記計算ノードのソフトウェア更新要求があると、前記ソフトウェア更新要求を記憶するソフトウェア更新管理部と、
省電力運用要求があると、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の計算ノードを前記ソフトウェア更新管理部に通知する省電力管理部と、を含み、
前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて、前記通知された前記計算ノードのソフトウェアを更新し、
前記省電力管理部は、前記ソフトウェア更新後の前記計算ノードを停止させる。
また本発明の他の形態に係る制御方法は、
ソフトウェア更新管理部と省電力管理部とを有し、複数の計算ノードを有する計算機システムを管理するシステム管理装置が実行する制御方法であって、
前記ソフトウェア更新管理部が、前記計算ノードのソフトウェア更新要求があると、前記ソフトウェア更新要求を記憶し、
前記省電力管理部が、省電力運用要求があると、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の計算ノードを前記ソフトウェア更新管理部に通知し、
前記ソフトウェア更新管理部が、前記ソフトウェア更新要求に基づいて、前記通知された前記計算ノードのソフトウェアを更新し、
前記省電力管理部が、前記ソフトウェア更新後の前記計算ノードを停止させる。
また本発明の他の形態に係るプログラムは、
複数の計算ノードを有する計算機システムを管理するコンピュータを、
前記計算ノードのソフトウェア更新要求があると、前記ソフトウェア更新要求を記憶するソフトウェア更新管理部と、
省電力運用要求があると、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の計算ノードを前記ソフトウェア更新管理部に通知する省電力管理部と、して機能させ、
前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて、前記通知された前記計算ノードのソフトウェアを更新し、
前記省電力管理部は、前記ソフトウェア更新後の前記計算ノードを停止させる。
本発明は上述した構成を有することにより、計算機システムのジョブ運用を停止させることなく、省電力化を実現することができると共に計算ノードのソフトウェア更新を実施することができる。
本発明の第1の実施形態に係る計算機システムのブロック図である。 本発明の第1の実施形態における計算ノード状態テーブルの一例を示す図である。 本発明の第1の実施形態における省電力管理部の処理の一例を示すフローチャートである。 本発明の第1の実施形態におけるソフトウェア更新管理部の処理の一例を示すフローチャートである。 本発明の第1の実施形態における計算ノードの状態遷移の一例を示す図である。 本発明の第2の実施形態の構成図である。 本発明の第2の実施形態におけるノード起動停止情報の一例を示す図である。 本発明の第2の実施形態におけるジョブスケジューリング状況とソフトウェア更新、省電力停止の具体例を示した図である。 本発明の第3の実施形態に係る計算機システムのブロック図である。
次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1を参照すると、本発明の第1の実施形態に係る計算機システム1は、複数の計算ノード2−1〜2−Nと、システム管理装置3とを含んで構成されている。
計算ノード2−1〜2−Nは、プロセッサとメモリとを少なくとも有する計算機である。計算ノード2−1〜2−Nは、他の計算ノードおよびシステム管理装置3とバス4を通じて接続されている。計算ノード2−1〜2−Nは、互い協調して動作することにより、並列処理アプリケーションプログラムを実行するように構成されている。計算ノード2−1〜2−Nには、オペレーティングシステム(OS)および各種のアプリケーションプログラムがインストールされている。計算ノード2−1〜2−Nは、停止状態、アイドル状態、ジョブ実行状態、ソフトウェア更新状態の何れかをとる。停止状態は、電源断されて計算ノードが動作していない状態である。アイドル状態は、計算ノードが正常に動作し、ジョブ投入可能であるが、ジョブが動作していない状態である。ジョブ実行状態は、計算ノードがジョブを実行している状態である。ソフトウェア更新状態は、電源が投入され計算ノードは動作しているが、ソフトウェア更新中であるためジョブを投入できない状態である。
システム管理装置3は、計算機システム1全体の制御を司るように構成されている。システム管理装置3は、通信I/F(インターフェース)部31、操作入力部32、画面表示部33、通信I/F部34、記憶部40、および演算処理部50を含んで構成されている。
通信I/F部31は、専用のデータ通信回路から構成され、有線または無線による通信回線を介して接続された外部端末などの各種装置との間でデータ通信を行うように構成されている。操作入力部32は、キーボードやマウスなどの操作入力装置から構成され、オペレータの操作を検出して演算処理部50に出力するように構成されている。画面表示部33は、LCD(Liquid Crystal Display)やPDP(Plasma Display Panel)などの画面表示装置から構成され、演算処理部50からの指示に応じて、操作メニューなどの各種情報を画面表示するように構成されている。通信I/F部34は、専用のデータ通信回路から構成され、バス4を介して接続された計算ノード2−1〜2−Nとの間でデータ通信を行うように構成されている。
記憶部40は、ハードディスクやメモリなどの記憶装置から構成され、演算処理部50における各種処理に必要な処理情報およびプログラム41を記憶するように構成されている。プログラム41は、演算処理部50に読み込まれて実行されることにより各種処理部を実現するように構成されている。プログラム41は、通信I/F部31などのデータ入出力機能を介して外部装置や記憶媒体から予め読み込まれて記憶部40に保存される。記憶部40に記憶される主な処理情報には、省電力運用要求42、ソフトウェア更新要求43、計算ノードのリスト44、ジョブキュー45、計算ノード状態テーブル46がある。
省電力運用要求42は、省電力化を図ることを要求するメッセージである。省電力運用要求42には、省電力化の条件が含まれていてもよい。例えば、省電力化の条件としては、停止させる計算ノードの条件および停止させる台数の上限値などが考えられる。停止させる計算ノードの条件としては、所定時間以上アイドル状態が継続していること、割当可能なジョブが無いことなどが考えられる。省電力運用要求42に省電力化の条件が含まれていない場合、事前に設定された省電力化の条件を適用するようにしてよい。
ソフトウェア更新要求43は、ソフトウェア更新の対象となる計算ノードの識別情報、ソフトウェアの識別情報とその版数(バージョン)、更新後ソフトウェアとその版数を含んで構成されている。
計算ノードのリスト44は、ソフトウェアを更新する必要がある計算ノードの一覧である。
ジョブキュー45は、投入されたジョブを蓄積する記憶部である。
計算ノード状態テーブル46は、計算ノード2−1〜2−Nの状態を記憶するテーブルである。図2は、計算ノード状態テーブル46の一例を示す。この例の計算ノード状態テーブル46は、計算ノード2−1〜2−Nに1対1に対応する行から構成されている。1つの計算ノードに対応する行は、ノードID、状態、経過時間、ソフトウェアID、版数の各欄を有する。ノードIDの欄には、計算ノードの識別情報が記録される。状態の欄には、停止状態、アイドル状態、ジョブ実行状態、ソフトウェア更新状態の何れかが記録される。経過時間の欄には、状態の欄に記載された状態が継続している時間が記載される。ソフトウェアIDの欄と版数の欄とは組になっており、複数の組を記載できるようになっている。ソフトウェアIDの欄には、計算ノードにインストールされているソフトウェアの識別情報が記録され、対応する版数の欄にインストールされているソフトウェアの版数が記録される。
演算処理部50は、MPUなどのマイクロプロセッサとその周辺回路から構成されている。演算処理部50は、記憶部40からプログラム41を読み込んで実行することにより、上記ハードウェアとプログラム41とを協働させて各種処理部を実現するように構成されている。演算処理部50で実現される主な処理部として、省電力管理部51とソフトウェア更新管理部52とジョブ管理部53とがある。
省電力管理部51は、複数の計算ノード2−1〜2−Nのうちのアイドル状態の計算ノードを停止させることにより、計算機システム1全体の省電力化を図るように構成されている。具体的には、省電力管理部51は、以下のように動作するように構成されている。
省電力管理部51は、通信I/F部31または操作入力部32から省電力運用要求42が入力されると、その省電力運用要求42を記憶部40に記憶するように構成されている。
また、省電力管理部51は、省電力運用要求42を記憶した後、省電力化の条件を満たすアイドル状態の計算ノードを検出するように構成されている。そして省電力管理部51は、省電力化の条件を満たすアイドル状態の計算ノードを検出すると、検出した計算ノードの状態をソフトウェア更新状態に変更するように構成されている。また省電力管理部51は、検出した計算ノードの識別情報をソフトウェア更新管理部52に通知するように構成されている。また、省電力管理部51は、上記通知後に、ソフトウェア更新管理部52からソフトウェア更新処理を完了した計算ノードの識別情報の通知を受けると、通知された計算ノードを停止させ、計算ノードの状態を停止状態に変更するように構成されている。
また、省電力管理部51は、省電力化のために一部の計算ノードを停止させている状態において、ジョブ実行中の計算ノードでジョブの実行が終了したことを検出するように構成されている。そして、省電力管理部51は、ジョブの実行が終了した計算ノードを検出すると、検出した計算ノードの状態をソフトウェア更新状態に変更すると共にその計算ノードの識別情報をソフトウェア更新管理部52に通知するように構成されている。また、1台の計算ノードの状態をソフトウェア更新状態に変更する毎に、省電力化のために停止させている1台の計算ノードを起動し、アイドル状態に変更するように構成されている。また、省電力管理部51は、上記通知後に、ソフトウェア更新管理部52からソフトウェア更新処理の完了した計算ノードの識別情報の通知を受けると、通知された計算ノードを停止させ、計算ノードの状態を停止状態に変更するように構成されている。省電力管理部51は、ソフトウェア更新管理部52からソフトウェア更新が全て完了した旨の通知を受けると、ジョブの実行が終了した計算ノードの検出動作を停止する。また、省電力管理部51は、省電力運用を停止する要求が操作入力部32または通信I/F部31から入力されると、省電力化の運用を停止する。このとき、省電力化のために停止させていた計算ノードがあれば、起動してアイドル状態へ変更する。
ソフトウェア更新管理部52は、計算ノード2−1〜2−Nのソフトウェアを更新するように構成されている。具体的には、ソフトウェア更新管理部52は、以下のように動作するように構成されている。
ソフトウェア更新管理部52は、通信I/F部31または操作入力部32からソフトウェア更新要求43が入力されると、そのソフトウェア更新要求43を記憶部40に記憶するように構成されている。
ソフトウェア更新管理部52は、ソフトウェア更新要求43を記憶部40に記憶した後、ソフトウェア更新要求43と計算ノード状態テーブル46に記載されている計算ノード2−1〜2−Nの現在のソフトウェア状態とを照合することにより、ソフトウェアを更新する必要がある計算ノードのリスト44を作成し、記憶部40に記憶するように構成されている。次に、ソフトウェア更新管理部52は、リスト44が空でなければ、省電力管理部51から計算ノードの識別情報が通知されるのを待ち合わせる。そして、ソフトウェア更新管理部52は、計算ノードの識別情報が通知されると、通知された識別情報がリスト44に記載されているか否かを調べる。この調査の結果、リスト44に記載されていれば、ソフトウェア更新管理部52は、当該計算ノードに対してバス4を介してアクセスし、ソフトウェア更新要求43に基づいて、当該計算ノードの現在のソフトウェアを更新後ソフトウェアに更新する処理を起動する。例えば計算機ノード側に設けられたソフトウェア更新を行うプログラムを起動する。計算ノードのソフトウェア更新には更新量に応じた時間がかかる。ソフトウェア更新管理部52は、ソフトウェアを更新する処理を起動してから所定の時間が経過したとき、ソフトウェア更新が終了したと判断する。或いはソフトウェア更新管理部52は、起動したソフトウェア更新の進捗状況を監視し、その終了を判定してもよい。次にソフトウェア更新管理部52は、ソフトウェア更新を終了した計算ノードの識別情報をリスト44から削除し、またその識別情報を、ソフトウェア更新を完了した計算ノードの識別情報として省電力管理部51に通知する。他方、ソフトウェア更新管理部52は、省電力管理部51から通知された計算ノードの識別情報がリスト44に記載されていなければ、当該計算ノードはソフトウェア更新を既に完了しているか、或いはもともと必要がなかったので、当該計算ノードの識別情報を、ソフトウェア更新を完了した計算ノードの識別情報として省電力管理部51に速やかに通知する。ソフトウェア更新管理部52は、以上のような処理を行って、リスト44が空になると、ソフトウェア更新要求43に係るソフトウェア更新が全て完了した旨を、画面表示部33に表示し、または/および通信I/F部31を通じて外部端末へ送信する。また、ソフトウェア更新管理部52は、ソフトウェア更新が全て完了した旨を省電力管理部51に通知する。
ジョブ管理部53は、ジョブ運用を管理するように構成されている。ジョブ管理部53は、操作入力部32または通信I/F部31からジョブが投入されると、投入されたジョブをジョブキュー45に格納するように構成されている。またジョブ管理部53は、ジョブキュー45から実行待ちのジョブを検出し、検出したジョブを割当可能な計算ノードに投入する。ジョブには、所定版数のソフトウェアに更新済みの計算ノードを必要とするジョブとそうでないジョブとがある。ジョブ管理部53は、所定版数のソフトウェアに更新済みの計算ノードを必要とするジョブの場合、計算ノード状態テーブル46から所定版数のソフトウェアに更新済み且つアイドル状態の計算ノードを必要個数検索し、この検索した計算ノードにジョブを投入する。ジョブを投入された計算ノードは、アイドル状態からジョブ実行状態に遷移し、ジョブの実行が終了するとアイドル状態に遷移する。このような計算ノードの状態は、ジョブ管理部53によって検出され、計算ノード状態テーブル46に反映される。
次に本実施形態に係る計算機システム1の動作を説明する。
図3は省電力管理部51の処理の一例を示すフローチャートである。また、図4はソフトウェア更新管理部52の処理の一例を示すフローチャートである。以下、図3および図4を参照して、省電力運用中に計算ノードのソフトウェアを更新する動作を説明する。
省電力管理部51は、通信I/F部31または操作入力部32から省電力運用要求42が入力されると(ステップS1)、その省電力運用要求42を記憶部40に記憶する(ステップS2)。次に省電力管理部51は、省電力化の条件を満たすアイドル状態の計算ノードを検出する(ステップS3)。例えば、図2の計算ノード状態テーブル46における状態の欄がアイドルであり、経過時間の欄が一定時間以上である計算ノードであって、且つ割当可能なジョブがジョブキュー45にない計算ノードを、所定台数を上限に検出する。このとき、省電力管理部51は、記憶部40に記憶されている計算ノードのリスト44に記載されている計算ノードのうちから、省電力化の条件を満たすアイドル状態の計算ノードを検出するようにしてもよい。次に省電力管理部51は、省電力化の条件を満たすアイドル状態の計算ノードを検出すると、計算ノード状態テーブル46中の上記検出した計算ノードの状態の欄をソフトウェア更新状態に変更し、その計算ノードの識別情報をソフトウェア更新管理部52に通知する(ステップS4)。
他方、ソフトウェア更新管理部52は、通信I/F部31または操作入力部32からソフトウェア更新要求43が入力されると(ステップS21)、そのソフトウェア更新要求43を記憶部40に記憶する(ステップS22)。次にソフトウェア更新管理部52は、ソフトウェア更新要求43に記載されている更新対象となるソフトウェアの識別子およびその版数と、計算ノード状態テーブル46に記載されている計算ノード2−1〜2−Nにインストールされているソフトウェアの識別子およびその版数とを照合することにより、ソフトウェアを更新する必要がある計算ノードのリスト44を作成し、記憶部40に記憶する(ステップS23)。次にソフトウェア更新管理部52は、リスト44が空でなければ(ステップS24)、省電力管理部51から計算ノードの識別情報が通知されるのを待ち合わせる(ステップS25)。
上述したように省電力管理部51が省電力化の条件を満たすアイドル状態の計算ノードの識別情報をソフトウェア更新管理部52に通知すると、省電力管理部51はこの通知をステップS25で検出することになる。ソフトウェア更新管理部52は、計算ノードの識別情報が通知されると、通知された識別情報がリスト44に記載されているか否かを調べる(ステップS26)。ソフトウェア更新管理部52は、リスト44に該当する記載があれば、ソフトウェア更新要求43に含まれる更新後ソフトウェアに基づいて、当該計算ノードの現在のソフトウェアを更新後ソフトウェアに更新する処理を開始する(ステップS27)。そして、当該計算ノードのソフトウェア更新を開始した旨をリスト44に記録する(ステップS28)。この記録では、ソフトウェア更新が終了する予定時刻を記載するようにしてもよい。一方、ソフトウェア更新管理部52は、省電力管理部51から通知された計算ノードの識別情報がリスト44に記載されていなければ、当該計算ノードはソフトウェア更新を既に完了しているか、或いはもともと必要がなかったので、当該計算ノードの識別情報を省電力管理部51に通知する(ステップS29)。そして、ステップS24に戻る。
またソフトウェア更新管理部52は、ソフトウェアを更新する処理を起動してから所定の時間が経過するか否かによって、或いは起動したソフトウェア更新の進捗状況を監視することによって、計算ノードのソフトウェア更新が完了したか否かを検出する(ステップS30)。そして、ソフトウェア更新管理部52は、計算ノードのソフトウェア更新が完了すると、計算ノード状態テーブル46における当該計算ノードにインストールされているソフトウェアの版数を更新後ソフトウェアに基づいて更新し、またリスト44から当該計算ノードの識別情報を削除する(ステップS31)。そして、ソフトウェア更新管理部52は、ソフトウェア更新が完了した計算ノードの識別情報を省電力管理部51に通知する(ステップS32)。そして、ステップS24に戻る。
ソフトウェア更新管理部52は、ステップS24に戻ると、計算ノードのリスト44が空か否かを再度判断する。そして、空でなければ、上述したステップS25〜S32の動作を繰り返す。また、空であれば、ソフトウェア更新要求43に基づくソフトウェア更新が全て完了した旨を画面表示部33に表示し、または/および、通信I/F部31を通じて外部端末へ送信すると共に、省電力管理部51に通知する(ステップS33)。
省電力管理部51は、ソフトウェア更新管理部52のステップS29、S32で出された上記の通知を図3のステップS5で検知すると、通知された識別情報の計算ノードを停止させる処理を行い、また計算ノード状態テーブル46の当該計算ノードの状態を停止状態に変更する(ステップS6)。計算機システム1の一部の計算ノードが停止状態になることによって、計算機システム全体の消費電力が低減される。
省電力管理部51は、省電力化のために計算ノードを停止させている場合(ステップS7)、ソフトウェア更新管理部52のステップS33で出された通知、即ちソフトウェア更新が全て完了した旨の通知を受けていなければ(ステップS8)、計算ノード状態テーブル46に基づいてジョブの実行が終了した計算ノードを検出する(ステップS9)。例えば省電力管理部51は、計算ノード状態テーブル46においてジョブ実行状態からアイドル状態に書き換えられた計算ノードを検出する。このとき、省電力管理部51は、記憶部40に記憶されている計算ノードのリスト44に記載されている計算ノードのうちから、ジョブ実行を終了した計算ノードを検出するようにしてもよい。次に、省電力管理部51は、ジョブ実行を終了した計算ノードの状態をソフトウェア更新状態に変更し、その識別情報をソフトウェア更新管理部52に通知する(ステップS10)。また省電力管理部51は、ステップS10によってソフトウェア更新状態とした1つの計算ノードの代わりに、省電力化のために停止させている1つの計算ノードを起動し、アイドル状態とする(ステップS11)。
省電力管理部51のステップS10で出された通知は、ソフトウェア更新管理部52の図4のステップS25で受信され、前述したように、ソフトウェア更新が必要であればソフトウェア更新の処理が開始され(ステップS26〜S28)、その完了時にその旨が省電力管理部51へ通知される(ステップS30〜S32)。またソフトウェア更新が必要なければ、速やかに同様の通知が出される(ステップS29)。これらの通知は省電力管理部51のステップS5で受信され、当該計算ノードが停止されることになる。このように省電力化のために停止させる計算ノードを動的に変更し、その停止前にソフトウェア更新を実施することで、最終的には全ての計算ノードが少なくとも一度は省電力化のために停止させられることになり、その結果、全ての計算ノードに対するソフトウェア更新が完了することになる。
そして、全ての計算ノードに対するソフトウェア更新が完了すると、ソフトウェア更新管理部52はその旨を省電力管理部51に通知する(ステップS33)。そして、ソフトウェア更新管理部52は、ステップS21の処理へと戻る。上記通知を受けると、省電力管理部51は、ステップS9〜S11の処理を実行しないため、省電力化のために停止する計算ノードを無駄に切り替えることがなくなる。
その後、省電力運用の停止要求が入力されると(ステップS12)、省電力管理部51は、省電力のために停止させていた全ての計算ノードを起動し、アイドル状態に変更する(ステップS13)。そして、省電力管理部51は、ステップS1の処理へと戻る。
図5は、計算ノードの状態遷移の一例を示す図である。縦軸は計算ノードを示し、横軸は時間の経過を示す。この例では、計算ノードの総数は16である。計算ノード2−1〜2−4がジョブJ1を実行し、計算ノード2−5〜2−12がジョブJ2を実行し、計算ノード2−13〜2−14がジョブJ3を実行し、計算ノード2−15〜2−16がジョブJ4を実行しているときに、省電力運用要求とソフトウェア更新要求とが入力されている。入力されたソフトウェア要求は全ての計算ノード2−1〜2−Nを対象にソフトウェアを更新するように要求している。
図5では、時刻T1の時点で、既にジョブJ1の実行を終了し所定時間にわたってアイドル状態にあった計算ノード2−1〜2−4が省電力化の停止対象として選択され、時刻T2までソフトウェア更新処理が実施され、その後に省電力化のために停止している。その後、時刻T3の時点で、計算ノード2−15〜2−16でジョブJ5が終了したため、停止させていた計算ノード2−1〜2−4を起動し、代わりに計算ノード2−13〜2−16を省電力化の停止対象として選択している。計算ノード2−13〜2−16は、時刻T4までソフトウェア更新処理が実施され、その後に省電力化のために停止している。その後、時刻T5の時点で、計算ノード2−5〜2−10でジョブj8が終了したため、停止させていた計算ノード2−13〜2−16を起動し、代わりに計算ノード2−5〜2−8を省電力化の停止対象として選択している。計算ノード2−5〜2−8は、時刻T6までソフトウェア更新処理が実施され、その後に省電力化のために停止している。その後、時刻T7で計算ノード2−1〜2−4でジョブJ8が終了しているが、これらの計算ノード2−1〜2−4は既にソフトウェア更新が完了しているため、省電力化の停止対象から除外されている。その後、時刻T8の時点で、計算ノード2−9〜2−12でジョブJ9が終了したため、停止させていた計算ノード2−5〜2−8を起動し、代わりに計算ノード2−9〜2−12を省電力化の停止対象として選択している。計算ノード2−9〜2−12は、時刻T9までソフトウェア更新処理が実施され、その後に省電力化のために停止している。この時点で全ての計算ノード2−1〜2−16のソフトウェア更新が完了したので、以後、省電力化の停止対象は計算ノード2−9〜2−12を維持している。
このように本実施形態によれば、計算機システムのジョブ運用を停止させることなく、省電力化を実現することができると共に計算ノードのソフトウェア更新を実施することができる。その理由は、省電力化のために計算ノードを停止させる前にソフトウェア更新を実施しているためである。即ち、省電力化のために一部の計算ノードが停止している状態において、ソフトウェア更新のために更に他の一部の計算ノードが停止する状態が発生しないため、ジョブを割当可能な計算ノードが極端に不足して計算機システムのジョブ運用が停止する恐れがないためである。
[第2の実施形態]
次に本発明の第2の実施形態について説明する。
<本実施形態の背景>
従来のHPC領域の大規模計算機システムでは、システム全体のソフトウェア更新として半期に一度のメンテナンス期間にまとめて実施するような運用が主流であった。しかし、最近では汎用のLinuxベースのシステムが使用されるようになり、頻繁な更新が増えた。また、外部システムと連携する使用方法も増え、セキュリティに関わる更新はメンテナンス日を待たずに早急に実施したいというユーザの要求が増えた。それらに対して、ジョブ運用を継続しながらメンテナンス期間を設けることなくソフトウェア更新を実施可能な方法が必要であった。また、昨今の計算機システムでは、システム全体での省電力運用が実施されており、それと協調したノードのソフトウェア更新が求められる。
<本実施形態が解決しようとする課題>
大規模な計算機システムにおいて、計算を実行するノード群のOSやアプリケーションプログラムの更新が必要な場合、通常はメンテナンス時間を設けて対応する。メンテナンス時間中は、計算機システムの全ノードを停止するか、部分的にメンテナンス対象ノードをジョブ運用管理から外したうえで、縮退したシステムでジョブ運用を継続していた。部分的にノードを更新した場合、該当する更新済みノードのみを使用したジョブを実行するためには、更新済みノードと未更新ノードを別のノード群として管理するなどの対策が必要であった。
また、ジョブ運用中に順次ジョブ実行ノードを更新していく場合、それらの情報を管理する処理をジョブスケジューラ内に持つか、もしくは、そのような機能を持つ運用管理ソフトウェアとの連携が必要であった。とくに、システム全体で省電力なジョブ実行をおこなう場合に、省電力機能によるノードの起動停止とソフトウェア更新実施をお互いに阻害することなく管理する必要があった。
<本実施形態の特徴>
本実施形態は、計算機システムのバッチジョブスケジューリング運用において、バッチジョブスケジューリングシステムの省電力機能による計算ノードの停止・起動処理と、計算ノードのOSやISVソフトウェアの更新タイミングを連携することにより、計算機システムのジョブ運用を停止することなく計算ノードのソフトウェア更新を実施する。また、一部の計算ノードのOSやISVソフトウェアは更新済みであるが他の計算ノードのOSやISVソフトウェアは未更新である等の、OSやISVソフトウェアのバージョンが揃っていない状況でも、OS、ISV環境を要求するジョブに対して適切な計算ノードを割り当てる。
そのため、本実施形態では、ジョブ管理システムが、省電力機能によるノード停止・起動指示と合わせてノードの更新処理を実施し、更新済みのノードを優先的にアサインし、未更新のノードにジョブを割り当てず、省電力でのノード停止状態にすることにより、ジョブ運用を停止することなく、効率よくノード更新を実施する。
<本実施形態の構成>
図6は本実施形態の構成図である。図6を参照すると、本実施形態は、ジョブ管理システム100とジョブ実行クラスタ200から構成されている。また、ジョブ管理システム100は、ジョブ管理部110と、省電力停止ノード数情報111と、クラスタ省電力管理手段112と、ノード起動停止情報113と、ノード起動停止手段114と、ノード更新状況判別手段115と、ソフトウェア更新手段116と、ジョブ実行手段121と、ジョブ実行ノード決定手段122と、ジョブ実行情報123を含んで構成されている。また、ジョブ実行クラスタ200は、多数のノード210から構成される。ジョブ管理システム100は、システム管理装置とも呼ぶ。ノード210は、計算ノードとも呼ぶ。ここで、省電力停止ノード数情報111、クラスタ省電力管理手段112、ノード起動停止情報113、および、ノード起動停止手段114は、図1の省電力管理部51に対応する。また、ノード更新状況判別手段115、および、ソフトウェア更新手段116は、図1のソフトウェア更新管理部52に対応する。また、ジョブ管理部110、ジョブ実行手段121、および、ジョブ実行情報123は、図1のジョブ管理部53に対応する。
このように構成された本実施形態は、以下のように動作する。
<本実施形態の動作>
ソフトウェア更新要求が発生した場合、ソフトウェア更新手段116は、そのソフトウェア更新要求をノード更新状況判別手段115に記憶しておく。ソフトウェア更新要求は、更新対象となるノードおよびソフトウェア、並びに更新後ソフトウェアを含む。
省電力運用要求が発生した場合、ジョブ管理部110は、省電力停止ノード数情報111を設定する。省電力停止ノード数情報111は、省電力化のために同時に停止させるノードの最大値を表す。省電力停止ノード数情報111は、省電力運用要求に含まれていてもよいし、予め設定されていてもよい。
次にジョブ管理部110は、クラスタ省電力管理手段112を呼び出し、ノード起動停止情報113を初期化する。ノード起動停止情報113は、各ノード21に対応するエントリを有する。初期化では、各エントリに「停止時刻なし」を設定する。次に、ジョブ管理システム100は、以下の(1)〜(3)の動作を行う。
(1)クラスタ省電力管理手段112は、ノード起動停止情報113とジョブ実行情報123から、省電力停止ノード数情報111の台数までのノード21を選び、それぞれ停止させるノード21に対しノード起動停止手段114を呼び出す。
(2)ノード起動停止手段114は、ノード更新状況判別手段115により、停止するノード21にソフトウェア更新処理が必要かどうかのチェックを行い、ソフトウェア更新処理が必要な場合、ソフトウェア更新手段116を呼び出し、ソフトウェア更新処理を実施する。
(3)ソフトウェア更新手段116により、ソフトウェア更新処理終了後、ノード起動停止手段114は、ノード起動停止情報113の該当ノード21の情報に停止時刻を設定し、ノード21を停止させる。図7はノード起動停止情報113の例を示す図である。
上記(1)から(3)の処理により、省電力停止ノード数情報111の台数のノード21が停止する前に、必要なソフトウェア更新を実施した後にノード起動停止情報113が更新され、それらのノード21が停止状態となる。
次に、ジョブが投入された場合、ジョブ管理部110はジョブ実行ノード決定手段122を呼び出す。ジョブ実行ノード決定手段122は、ノード起動停止情報113を参照し、停止時刻が設定されているノード21を検索し、検索に成功したノード21があれば、ノード起動停止手段114により、当該ノード21の起動処理を実施する。
ノード起動停止手段114により、ノード21を起動後、ジョブ実行手段121により、ジョブ実行情報123を更新し、ジョブを起動する。同時に、クラスタ省電力管理手段112を呼び出し、上記(1)から(3)までの処理により省電力停止ノード数情報111の台数までのノード21を停止させる。このとき、ノード起動停止手段114に停止済みのノード21以外のノード21を優先的に停止させる。
次に、ソフトウェア更新済みを要求するジョブが投入された場合、ジョブ管理部110は、ジョブ実行ノード決定手段122を呼び出し、ノード起動停止情報113から、既にソフトウェア更新済みノード21を判断して割り当て、ジョブ実行手段121により、ジョブを実行する。もし必要とするソフトウェア更新済みノード21が、要求するジョブ実行に足りない場合は、そのジョブは資源待ちとなり、実行されない。ノード21が空き状態となり、ジョブ実行情報123でも空き状態となる。
クラスタ省電力管理手段112は、ジョブ実行情報123とノード起動停止情報113から、これらのノード21を停止とするよう選び、上記(1)から(3)のようにソフトウェア更新手段116とノード起動停止手段114を実施する。
図8は、ジョブスケジューリング状況とソフトウェア更新、省電力停止の具体例を示した図である。ジョブCとジョブDの実行終了後、ノード群Aはソフトウェア更新後に停止する。その後、ソフトウェア更新済みを要求するジョブJが投入されたときに、ソフトウェア更新済みノードとしてノード群Aを選択し、起動し、ジョブJを実行する。省電力停止ノード情報から、ノード群Aを起動するタイミングで同数のノード群Bを選択し、ノード群Aの代わりに停止することで省電力停止ノード数を維持する。
このようにして、ジョブ運用を継続したままソフトウェアを更新する。
<本実施形態の効果>
第1の効果は、ジョブ管理システムによる省電力機能でのノード停止・起動のタイミングと連携してノード上のソフトウェア更新の処理を実施することで、特別な更新ノード管理を必要とせずに、システムの全ノードの更新を完了できることである。
第2の効果は、ジョブ運用を継続しながら、ソフトウェアの更新が各ノードで一様でない場合でも、ソフトウェアの更新が実施されたノードのみを使用したジョブを実行できることである。
[第3の実施形態]
次に本発明の第3の実施形態について説明する。
図9は本発明の第3の実施形態に係る計算機システムのブロック図である。図9を参照すると、本実施形態に係る計算機システム300は、システム管理装置301と複数の計算ノード302とを有する。また、システム管理装置301は、ソフトウェア更新管理部311と省電力管理部312とを含んで構成されている。
ソフトウェア更新管理部311は、計算ノード302のソフトウェア更新要求があると、そのソフトウェア更新要求を記憶するように構成されている。また、ソフトウェア更新管理部311は、省電力管理部312から、省電力化の条件を満たすアイドル状態の計算ノード302が通知されると、上記ソフトウェア更新要求に基づいて、通知された計算ノード302のソフトウェアを更新するように構成されている。ソフトウェア更新管理部311は、図1のソフトウェア更新管理部52と同様に構成することができるが、それに限定されない。
省電力管理部312は、省電力運用要求があると、複数の計算ノード302のうち省電力化の条件を満たすアイドル状態の計算ノードをソフトウェア更新管理部311に通知するように構成されている。また、省電力管理部312は、ソフトウェア更新管理部311によるソフトウェア更新後の計算ノード302を停止させるように構成されている。省電力管理部312は、図1の省電力管理部51と同様に構成することができるが、それに限定されない。
このように構成された本実施形態に係る計算機システム300は、以下のように動作する。即ち、ソフトウェア更新管理部311は、計算ノード302のソフトウェア更新要求があると、そのソフトウェア更新要求を記憶する。また、省電力管理部312は、省電力運用要求があると、複数の計算ノード302のうち省電力化の条件を満たすアイドル状態の計算ノードをソフトウェア更新管理部311に通知する。ソフトウェア更新管理部311は、ソフトウェア更新要求に基づいて、上記通知された計算ノード302のソフトウェアを更新する。そして省電力管理部312は、上記ソフトウェア更新後の計算ノード302を停止させる。
このように本実施形態によれば、計算機システムのジョブ運用を停止させることなく、省電力化を実現することができると共に計算ノードのソフトウェア更新を実施することができる。その理由は、省電力化のために計算ノードを停止させる前にソフトウェア更新を実施するためである。
以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。
本発明は、複数の計算ノードを有する計算機システムの省電力化およびソフトウェア更新に利用できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
[付記1]
複数の計算ノードを有する計算機システムを管理するシステム管理装置であって、
前記計算ノードのソフトウェア更新要求があると、前記ソフトウェア更新要求を記憶するソフトウェア更新管理部と、
省電力運用要求があると、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の計算ノードを前記ソフトウェア更新管理部に通知する省電力管理部と、を含み、
前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて、前記通知された前記計算ノードのソフトウェアを更新し、
前記省電力管理部は、前記ソフトウェア更新後の前記計算ノードを停止させる、
システム管理装置。
[付記2]
前記省電力管理部は、ジョブ実行中の前記計算ノードでジョブの実行が終了すると、前記ジョブの実行が終了した前記計算ノードを前記ソフトウェア更新管理部に通知すると共に、前記停止させていた前記計算ノードを起動し、
前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて前記通知された計算ノードのソフトウェアを更新し、
前記省電力管理部は、前記ソフトウェア更新後の前記計算ノードを停止させる、
付記1に記載のシステム管理装置。
[付記3]
前記省電力管理部は、前記ジョブの実行が終了した前記計算ノードのうち未だ前記ソフトウェア更新管理部によるソフトウェア更新が実施されていない前記計算ノードを前記ソフトウェア更新管理部に通知する、
付記2に記載のシステム管理装置。
[付記4]
ソフトウェア更新管理部と省電力管理部とを有し、複数の計算ノードを有する計算機システムを管理するシステム管理装置が実行する制御方法であって、
前記ソフトウェア更新管理部が、前記計算ノードのソフトウェア更新要求があると、前記ソフトウェア更新要求を記憶し、
前記省電力管理部が、省電力運用要求があると、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の計算ノードを前記ソフトウェア更新管理部に通知し、
前記ソフトウェア更新管理部が、前記ソフトウェア更新要求に基づいて、前記通知された前記計算ノードのソフトウェアを更新し、
前記省電力管理部が、前記ソフトウェア更新後の前記計算ノードを停止させる、
制御方法。
[付記5]
前記省電力管理部が、ジョブ実行中の前記計算ノードでジョブの実行が終了すると、前記ジョブの実行が終了した前記計算ノードを前記ソフトウェア更新管理部に通知すると共に、前記停止させていた前記計算ノードを起動し、
前記ソフトウェア更新管理部が、前記ソフトウェア更新要求に基づいて前記通知された計算ノードのソフトウェアを更新し、
前記省電力管理部が、前記ソフトウェア更新後の前記計算ノードを停止させる、
付記4に記載の制御方法。
[付記6]
前記省電力管理部が、前記ジョブの実行が終了した前記計算ノードのうち未だ前記ソフトウェア更新管理部によるソフトウェア更新が実施されていない前記計算ノードを前記ソフトウェア更新管理部に通知する、
付記5に記載の制御方法。
[付記7]
複数の計算ノードを有する計算機システムを管理するコンピュータを、
前記計算ノードのソフトウェア更新要求があると、前記ソフトウェア更新要求を記憶するソフトウェア更新管理部と、
省電力運用要求があると、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の計算ノードを前記ソフトウェア更新管理部に通知する省電力管理部と、して機能させ、
前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて、前記通知された前記計算ノードのソフトウェアを更新し、
前記省電力管理部は、前記ソフトウェア更新後の前記計算ノードを停止させる、
プログラム。
[付記8]
前記省電力管理部は、ジョブ実行中の前記計算ノードでジョブの実行が終了すると、前記ジョブの実行が終了した前記計算ノードを前記ソフトウェア更新管理部に通知すると共に、前記停止させていた前記計算ノードを起動し、
前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて前記通知された計算ノードのソフトウェアを更新し、
前記省電力管理部は、前記ソフトウェア更新後の前記計算ノードを停止させる、
付記7に記載のプログラム。
[付記9]
前記省電力管理部は、前記ジョブの実行が終了した前記計算ノードのうち未だ前記ソフトウェア更新管理部によるソフトウェア更新が実施されていない前記計算ノードを前記ソフトウェア更新管理部に通知する、
付記8に記載のプログラム。
1…計算機システム
2−1〜2−N…計算ノード
3…システム管理装置
4…バス
31…通信I/F部
32…操作入力部
33…画面表示部
34…通信I/F部
40…記憶部
41…プログラム
42…省電力運用要求
43…ソフトウェア更新要求
44…計算ノードのリスト
45…ジョブキュー
46…計算ノード状態テーブル
50…演算処理部
51…省電力管理部
52…ソフトウェア更新管理部
53…ジョブ管理部
100…ジョブ管理システム
110…ジョブ管理部
111…省電力停止ノード数情報
112…クラスタ省電力管理手段
113…ノード起動停止情報
114…ノード起動停止手段
115…ノード更新状況判別手段
116…ソフトウェア更新手段
121…ジョブ実行手段
122…ジョブ実行ノード決定手段
123…ジョブ実行情報
200…ジョブ実行クラスタ
210…ノード
300…計算機システム
301…システム管理装置
302…計算ノード
311…ソフトウェア更新管理部
312…省電力管理部

Claims (3)

  1. 複数の計算ノードを有する計算機システムを管理するシステム管理装置であって、
    入力されたソフトウェア更新要求に従って、ソフトウェアの更新を行う必要のある前記計算ノードのリストを作成するソフトウェア更新管理部と、
    入力された省電力運用要求に従って、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の第1の計算ノードを前記ソフトウェア更新管理部に通知する省電力管理部と、を含み、
    前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて、前記第1の計算ノードのソフトウェアを更新し、前記リストから前記第1の計算ノードを削除し、
    前記省電力管理部は、前記第1の計算ノードを省電力化のために停止させ、前記第1の計算ノードを省電力化のために停止させているときに、前記リストに記載されている第2の計算ノードでジョブの実行が終了したことを検出すると、前記第2の計算ノードを前記ソフトウェア更新管理部に通知し、前記第1の計算ノードを起動し、
    前記ソフトウェア更新管理部は、前記ソフトウェア更新要求に基づいて、前記第2の計算ノードのソフトウェアを更新し、前記リストから前記第2の計算ノードを削除し、
    前記省電力管理部は、省電力化のために停止させる前記計算ノードの台数を維持するために前記第1の計算ノードの起動に応じて前記第2の計算ノードを停止させる、ように構成されている
    システム管理装置。
  2. ソフトウェア更新管理部と省電力管理部とを有し、複数の計算ノードを有する計算機システムを管理するシステム管理装置が実行する制御方法であって、
    前記ソフトウェア更新管理部が、入力されたソフトウェア更新要求に従って、ソフトウェアの更新を行う必要のある前記計算ノードのリストを作成し、
    前記省電力管理部が、入力された省電力運用要求に従って、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の第1の計算ノードを前記ソフトウェア更新管理部に通知し、
    前記ソフトウェア更新管理部が、前記ソフトウェア更新要求に基づいて、前記第1の計算ノードのソフトウェアを更新し、前記リストから前記第1の計算ノードを削除し、
    前記省電力管理部が、前記第1の計算ノードを省電力化のために停止させ、前記第1の計算ノードを省電力化のために停止させているときに、前記リストに記載されている第2の計算ノードでジョブの実行が終了したことを検出すると、前記第2の計算ノードを前記ソフトウェア更新管理部に通知し、前記第1の計算ノードを起動し、
    前記ソフトウェア更新管理部が、前記ソフトウェア更新要求に基づいて、前記第2の計算ノードのソフトウェアを更新し、前記リストから前記第2の計算ノードを削除し、
    前記省電力管理部が、省電力化のために停止させる前記計算ノードの台数を維持するために前記第1の計算ノードの起動に応じて前記第2の計算ノードを停止させる、
    システム管理方法。
  3. 複数の計算ノードを有する計算機システムを管理するコンピュータに、
    入力されたソフトウェア更新要求に従って、ソフトウェアの更新を行う必要のある前記計算ノードのリストを作成する処理と、
    入力された省電力運用要求に従って、前記複数の計算ノードのうち省電力化の条件を満たすアイドル状態の第1の計算ノードを検出する処理と、
    前記ソフトウェア更新要求に基づいて、前記第1の計算ノードのソフトウェアを更新し、前記リストから前記第1の計算ノードを削除する処理と、
    前記第1の計算ノードを省電力化のために停止させ、前記第1の計算ノードを省電力化のために停止させているときに、前記リストに記載されている第2の計算ノードでジョブの実行が終了したことを検出する処理と、
    前記ソフトウェア更新要求に基づいて、前記第2の計算ノードのソフトウェアを更新し、前記リストから前記第2の計算ノードを削除する処理と、
    省電力化のために停止させる前記計算ノードの台数を維持するために前記第1の計算ノードを起動し、前記第2の計算ノードを停止させる処理と、
    を行わせるためのプログラム。
JP2018008650A 2018-01-23 2018-01-23 システム管理装置 Active JP6562093B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018008650A JP6562093B2 (ja) 2018-01-23 2018-01-23 システム管理装置
US16/242,198 US10928883B2 (en) 2018-01-23 2019-01-08 System management device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018008650A JP6562093B2 (ja) 2018-01-23 2018-01-23 システム管理装置

Publications (2)

Publication Number Publication Date
JP2019128695A JP2019128695A (ja) 2019-08-01
JP6562093B2 true JP6562093B2 (ja) 2019-08-21

Family

ID=67300042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018008650A Active JP6562093B2 (ja) 2018-01-23 2018-01-23 システム管理装置

Country Status (2)

Country Link
US (1) US10928883B2 (ja)
JP (1) JP6562093B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110187912B (zh) * 2019-05-16 2022-03-29 华为技术有限公司 一种节点选择方法和装置
WO2022172331A1 (ja) * 2021-02-09 2022-08-18 日本電信電話株式会社 設定変更装置、設定変更方法及びプログラム
CN113835852B (zh) * 2021-08-26 2024-04-12 东软医疗系统股份有限公司 任务数据的调度方法及装置
JP2023152421A (ja) * 2022-04-04 2023-10-17 株式会社オートネットワーク技術研究所 車載装置、車載システム、制御方法及びコンピュータプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162515A (ja) 2001-11-22 2003-06-06 Fujitsu Ltd クラスタシステム
WO2008126221A1 (ja) * 2007-03-29 2008-10-23 Fujitsu Limited ソフトウェア修正管理プログラム、ソフトウェア修正管理装置、およびソフトウェア修正管理方法
US9110801B2 (en) * 2009-02-10 2015-08-18 International Business Machines Corporation Resource integrity during partial backout of application updates
US9307347B2 (en) * 2012-06-01 2016-04-05 Nokia Technologies Oy Wireless programming
US8594850B1 (en) * 2012-09-30 2013-11-26 Nest Labs, Inc. Updating control software on a network-connected HVAC controller
JP6103909B2 (ja) * 2012-12-07 2017-03-29 キヤノン株式会社 画像処理装置、画像処理装置の制御方法及びプログラム
JP5758022B1 (ja) * 2014-04-02 2015-08-05 株式会社野村総合研究所 ソフトウェア更新方法
EP3657866A1 (en) * 2014-09-29 2020-05-27 Convida Wireless, LLC Service capability server / epc coordination for power savings mode and paging

Also Published As

Publication number Publication date
US10928883B2 (en) 2021-02-23
US20190227621A1 (en) 2019-07-25
JP2019128695A (ja) 2019-08-01

Similar Documents

Publication Publication Date Title
JP6562093B2 (ja) システム管理装置
US9021375B2 (en) Notification of state transition of an out-of-focus application
JP4980792B2 (ja) 仮想計算機の性能監視方法及びその方法を用いた装置
WO2015070705A1 (zh) 一种业务流程调度的计算机设备、方法和装置
JP2020535559A (ja) リソーススケジューリング方法、スケジューリングサーバ、クラウドコンピューティングシステム、及び記憶媒体
CN113391944A (zh) 计算系统中延期的服务器恢复方法和设备
US20080155455A1 (en) Notification of state transition of an out-of-focus application with clustering
US8239872B2 (en) Method and system for controlling distribution of work items to threads in a server
US20080163258A1 (en) Notification of state transition of an out-of-focus application with notification precedence
JP2006113767A (ja) 情報処理システム、および、情報処理方法、並びに、プログラム
US20150378782A1 (en) Scheduling of tasks on idle processors without context switching
JP5942509B2 (ja) バッチ処理システム
WO2013035246A1 (ja) 仮想計算機制御装置、仮想計算機制御方法、仮想計算機制御プログラム、及び集積回路
US20220350668A1 (en) Function parallelism in a runtime container of a function-as-a-service (faas) system
JP2008217575A (ja) ストレージ装置及びその構成最適化方法
US8024738B2 (en) Method and system for distributing unused processor cycles within a dispatch window
JP4813975B2 (ja) 無共有型データベースシステムの構成変更方法、管理サーバ及び無共有型データベースシステム
KR20100108578A (ko) 컴퓨팅 장치 셧다운 방법, 컴퓨팅 장치 및 컴퓨터 판독가능 저장 매체
JP2011060225A (ja) オペレーティングシステム起動方法
WO2012124017A1 (ja) コマンド制御方法およびコマンド制御プログラム
JP2018106440A (ja) プログラマブルコントローラ、管理装置および制御システム
JP5597293B2 (ja) 計算機システム及びプログラム
US20150242275A1 (en) Power efficient distribution and execution of tasks upon hardware fault with multiple processors
JP2009020555A (ja) スワップ処理装置
US9015721B2 (en) Managing array computations during programmatic run-time in a distributed computing environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190708

R150 Certificate of patent or registration of utility model

Ref document number: 6562093

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150