JP6798900B2 - 制御装置、情報システムおよび制御方法 - Google Patents

制御装置、情報システムおよび制御方法 Download PDF

Info

Publication number
JP6798900B2
JP6798900B2 JP2017025015A JP2017025015A JP6798900B2 JP 6798900 B2 JP6798900 B2 JP 6798900B2 JP 2017025015 A JP2017025015 A JP 2017025015A JP 2017025015 A JP2017025015 A JP 2017025015A JP 6798900 B2 JP6798900 B2 JP 6798900B2
Authority
JP
Japan
Prior art keywords
node
power saving
saving mode
core
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017025015A
Other languages
English (en)
Other versions
JP2018132876A (ja
Inventor
浩司 桐原
浩司 桐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2017025015A priority Critical patent/JP6798900B2/ja
Publication of JP2018132876A publication Critical patent/JP2018132876A/ja
Application granted granted Critical
Publication of JP6798900B2 publication Critical patent/JP6798900B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Power Sources (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、クラスタシステムに関するものであり、特に、ノードの制御技術に関するものである。
処理能力や可用性の向上のため複数のノードでジョブを分散して実行するクラスタシステムが広く用いられている。そのような、クラスタシステムでは、各ノードにおいてジョブの実行を行うCPU(Central Processing Unit)は、コアの複数化や回路の高集積度化が進み消費電力が増大している。そのため、各ノードや情報システム全体での消費電力の抑制の要求も強くなっている。
情報システムの消費電力を抑制する方法としては、例えば、負荷の状況等に応じてノードの一部をジョブの割り当て対象から除外してオフライン状態とし、省電力モードで動作させる方法が用いられる。オフラインとして省電力モードとなっていたノードは、負荷の増加時や現用系と待機系の入れ替えの際に、再度、オンラインに移行する。しかし、一定時間オフラインとなっていたノードをオンライン状態に戻し、ジョブの割り当てを再開した際に、故障等が発生した場合、そのノードに割り当てられたジョブはアボートされる。アボートされたジョブは、再度、スケジューリングされて他のノードに割り当てられて実行される。
そのようなノードの故障等の発生は、情報システムの信頼性や可用性を維持するためにできるだけ抑制されている必要がある。そのため、クラスタシステムにおいて各ノードの異常の有無を確認し、ノードの停止を抑制するための技術の開発が行われている。そのような、クラスタシステムにおいてノードの異常の有無を確認し、ノードの停止の発生を抑制する技術としては、例えば、特許文献1のような技術が開示されている。
特許文献1は、複数のホストでジョブを実行するクラスタシステムに関するものである。特許文献1のクラスタシステムのサービスプロセッサは、複数のホストを順に1つずつオフライン状態として、オフライン状態にしたホストの試験を行っている。サービスプロセッサは、1つのホストの試験が完了すると、試験が完了したホストをオンラインに戻し、他のホストの試験を実施する。特許文献1は、そのような構成で順にホストの試験を行うことで効率的にホストの試験を行うことができるとしている。
特開平9−185520号公報
しかしながら、特許文献1の技術は次のような点で十分ではない。特許文献1のクラスタシステムは、各ノードを順にオフラインにして試験を行っている。特許文献1では、試験の対象となるノードは、オフラインの状態でも通常と同様の動作を行える状態で試験を実行する。そのため、試験の対象となるノードの消費電力を削減することはできない。よって、特許文献1の技術は、複数のノードでジョブを実行するクラスタシステムにおいて、消費電力を抑制しつつ信頼性を維持するための技術としては十分ではない。
本発明は、上記の課題を解決するため、クラスタシステムにおいて消費電力を抑制しつつ信頼性を維持することができる制御装置を提供することを目的としている。
を目的としている。
上記の課題を解決するため、本発明の制御装置は、コア選択手段と、ノード制御手段を備えている。コア選択手段は、割り当てられたジョブをそれぞれ実行する複数のノードのうち選択されたノードのCPUの複数のコアから、選択されたノードが一部のコアで動作する省電力モードにおいて動作を継続させるコアを選択する。ノード制御手段は、選択されたノードを、コア選択手段が選択したコアを動作させた省電力モードに移行させる。また、ノード制御手段は、省電力モードにおいても継続して動作しているコアでテストプログラムを実行させる。
本発明の制御方法は、割り当てられたジョブをそれぞれ実行する複数のノードのうち選択されたノードのCPUの複数のコアから、ノードが一部のコアで動作する省電力モードにおいて動作を継続させるコアを選択する。本発明の制御方法は、選択されたノードを、選択したコアを動作させた省電力モードに移行する。本発明の制御方法は、省電力モードにおいても継続して動作しているコアでテストプログラムを実行させる。
本発明によると、クラスタシステムにおいて消費電力を抑制しつつ信頼性を維持することができる。
本発明の第1の実施形態の構成の概要を示す図である。 本発明の第2の実施形態の構成の概要を示す図である。 本発明の第2の実施形態のクラスタシステムの例を模式的に示した図である。 本発明の第2の実施形態のクラスタシステムの例を模式的に示した図である。 本発明の第2の実施形態の動作フローの概要を示した図である。 本発明の第2の実施形態の動作フローの概要を示した図である。 本発明の第2の実施形態における動作フローの例を示した図である。 本発明の第2の実施形態における動作フローの例を示した図である。 本発明の第2の実施形態における動作フローの例を示した図である。 本発明の第2の実施形態における動作フローの例を示した図である。 本発明の第2の実施形態における動作フローの例を示した図である。 本発明の第2の実施形態における動作フローの例を示した図である。
(第1の実施形態)
本発明の第1の実施形態について図を参照して詳細に説明する。図1は、本実施形態の制御装置の構成の概要を示したものである。本実施形態の制御装置は、コア選択手段1と、ノード制御手段2を備えている。コア選択手段1は、割り当てられたジョブをそれぞれ実行する複数のノードのうち選択されたノードのCPU(Central Processing Unit)の複数のコアから、選択されたノードが一部のコアで動作する省電力モードにおいて動作を継続させるコアを選択する。ノード制御手段2は、選択されたノードを、コア選択手段1が選択したコアを動作させた省電力モードに移行させる。また、ノード制御手段2は、省電力モードにおいても継続して動作しているコアでテストプログラムを実行させる。
本実施形態の制御装置は、コア選択手段1において省電力モードのときに稼動させるコアを選択し、ノード制御手段2が選択されたノードを省電力モードに移行する。また、ノード制御手段2は、省電力モードで動作しているコアでテストプログラムを実行させている。そのため、ノードが有する一部のコアのみが動作している省電力モードで、動作しているコアによってテストプログラムを実行するので、電力の消費を抑制しつつノードの試験を実行することができる。その結果、本実施形態の制御装置を用いることで、クラスタシステムにおいて、消費電力を抑制しつつ信頼性を維持することができる。
(第2の実施形態)
本発明の第2の実施形態について図を参照して詳細に説明する。図2は、本実施形態の情報システムの構成の概要を示したものである。本実施形態の情報システムは、制御サーバ10と、複数のノード20を備えている。本実施形態の情報システムは、複数のノード20において制御サーバの制御に基づいてジョブの分散処理を行うクラスタシステムである。
制御サーバ10の構成について説明する。制御サーバ10は、スケジューラ部11と、診断部12と、記憶部13を備えている。制御サーバ10は、ジョブを各ノード20に割り当てるスケジューラとしての機能と、各ノード20のオンラインとオフラインの切り替えや試験を制御する機能を有する制御装置である。制御サーバ10は、情報処理装置やネットワークを介して要求されたジョブを、各ノードに分散して実行し、各ノードから受け取るジョブの実行結果を要求元の情報処理装置等に送る。
スケジューラ部11は、スケジュール制御部14と、履歴保存部15をさらに備えている。スケジュール制御部14は、実行するジョブのノード20への割り当てを行う機能と、ノード20のオンラインとオフラインの切り替えを管理する機能を有する。
スケジュール制御部14は、ジョブが発生すると、ジョブの実行を割り当てるノード20を決定する。スケジュール制御部14は、ジョブの割り当て先のノード20を決定すると、決定したノード20にジョブの実行の指示を送る。
スケジュール制御部14は、ジョブの割り当て先として用いるオンラインのノード20と、ジョブの割り当てを行わないオフラインのノード20を選択する。スケジュール制御部14は、例えば、クラスタシステムの負荷に応じてジョブの実行に必要なノード20の数を予測し、必要な数のノード20をオンラインに設定し、それ以外のノード20をオフラインに設定する。また、現用系と待機系のノード20を有する情報システムでは、スケジュール制御部14は、現用系のノード20をオンライン、待機系のノード20をオフラインとする制御を行う。
本実施形態の情報システムでは、オフラインのノード20は、省電力モードで動作する。省電力モードとは、ノード20が有するCPUの複数のコアのうち一部のコアのみを動作させた状態でノード20が動作している状態のことをいう。省電力モードにおいて、動作対象とならないコアは、低クロック周波数の動作状態か停止状態となる。低クロック周波数の動作状態とは、起動の制御信号等が入力された際に動作を開始することができる最小限の動作のみが可能な程度までクロック周波数を下げた状態のことをいう。また、通常モードとは、CPUの全てのコアがジョブの実行が可能な状態で動作または待機している状態のことをいう。
スケジュール制御部14は、オフラインのノード20を選択する際に、オフラインにした履歴がノード20間で偏らないように選択し、ノード20間でオフラインにした履歴を平準化する。スケジュール制御部14は、ノード20ごとのオフラインにした履歴を履歴保存部15に保存している。スケジュール制御部14は、オフラインにした回数に基づいて、ノード20ごとのオフラインにした回数が平準化、すなわち、均等になるようにオフラインにするノード20を選択する。また、スケジュール制御部14は、情報システムが備えているノード20の情報をあらかじめ保存している。
履歴保存部15は、ノード20ごとのオンラインとオフラインの履歴を保存する機能を有する。履歴保存部15は、例えば、読み書きが可能な不揮発性の半導体記憶素子によって構成されている。
診断部12は、ノード制御部16と、診断履歴保存部17をさらに備えている。ノード制御部16は、スケジュール制御部14の指示に基づいてノード20のオンラインとオフラインの切り替えを制御する機能を有する。また、ノード制御部16は、オフラインのノード20にテストプログラムの実行を要求する機能を有する。
ノード制御部16は、スケジュール制御部14からノード20のオンラインとオフラインの切り替えの要求を受け取ると、ノード20のオンラインとオフラインの切り替えを行う。またノード制御部16は、ノード20のオンラインとオフラインの切り替えを実行したことを示す情報をスケジュール制御部14に送る。
ノード制御部16は、オフラインにするノード20を省電力モードに移行するように制御する。ノード制御部16は、オフラインにするノード20を省電力モードに移行させる際に、省電力モードにおいて動作を継続するCPUのコアを選択する。省電力モードにおいて動作を継続するCPUのコアは、CPUが有する複数のコアの中からテストプログラムの実行に必要な1つまたは複数のコアが選択される。すなわち、省電力モードにおいても継続して動作するCPUのコアは、CPUが有する全てのコアのうち一部のコアが選択される。また、ノード制御部16は、各ノード20が備えているCPUのコアの構成の情報をあらかじめ保存している。
ノード制御部16は、省電力モードにおいても継続して動作するCPUのコアを選択する際に、省電力モードで動作した履歴が、CPUごとのコア間で偏らないように選択し、CPUのコア間で省電力モードにおいて動作した履歴が平準化されるように選択する。ノード制御部16は、CPUのコアごとの履歴を診断履歴保存部17に保存している。ノード制御部16は、例えば、省電力モードで動作している際にテストプログラムを実行した回数がCPUごとにコア間で平準化、すなわち、均等になるように省電力モードにおいて継続して動作させるCPUのコアを選択する。
ノード制御部16は、オフラインで省電力モードのノード20に対して、省電力モードにおいて継続して動作しているCPUのコアでのテストプログラムの実行を要求する。ノード制御部16は、テストプログラムの実行の要求と、記憶部13から読み出したテストプログラムのデータを、テストプログラムを実行するノード20に送る。また、ノード制御部16は、テストプログラムを実行したノード20からテストの実行結果の情報を取得する。ノード制御部16は、テストの実行結果をスケジュール制御部14に送る。
ノード制御部16は、スケジュール制御部14からノード20をオンラインにする指示を受けると、ノード20を全てのCPUコアでジョブの実行を行える状態のオンラインに移行させる。
本実施形態のノード制御部16の省電力モードにおいても動作を継続するCPUのコアを選択する機能は、第1の実施形態のコア選択手段1に相当する。また、本実施形態のノード制御部16が、ノードを省電力モードに移行する機能と、ノードにテストプログラムを実行させる機能は、第1の実施形態のノード制御手段2に相当する。
診断履歴保存部17は、ノード20ごとの省電力モードで動作している際に継続して動作しているCPUのコアの履歴と、テストプログラムを実行した履歴を保存する機能を有する。履歴保存部15は、例えば、読み書きが可能な不揮発性の半導体記憶素子によって構成されている。
記憶部13は、ノード20の異常の有無をチェックするテストプログラムのデータを保存する機能を有する。記憶部13は、ノード制御部16の要求に基づいてテストプログラムのデータをノード制御部16に出力する。記憶部13は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などの記憶装置によって構成されている。また、スケジューラ部11の履歴保存部15および診断部12の診断履歴保存部17は、記憶部13に形成されていてもよい。
ノード20は、複数のコアを有するCPUと、メモリを備えている。ノード20は、制御サーバ10に割り当てられたジョブを実行し、実行結果を制御サーバ10に送る。また、ノード20は、制御サーバ10の制御に基づいて、ジョブを実行可能な状態で待機するオンラインの状態と、ジョブの実行を行わないオフラインの状態とのいずれかによって動作する。
ノード20は、オフラインの状態では、複数のCPUのコアのうち一部のコアのみを動作状態とする省電力モードで動作する。例えば、ノード20は、オフラインの状態では、テストプログラムの実行を可能とするために1つのCPUのコアとメモリを動作可能な省電力モードの状態で待機する。ノード20は、1つのCPUコアとメモリを動作可能な状態として待機することで他のCPUのコアの電力の消費を抑制しつつ、テストプログラムの実行が可能な状態で待機することができる。省電力モードおいて動作しないCPUのコアは、低クロック周波数で動作する状態か停止状態として設定される。
ノード20は、制御サーバ10の指示に基づいて省電力モードにおいてテストプログラムを実行し、実行結果を制御サーバ10に送る。テストプログラムは、ノード20のCPUやメモリ等の各デバイスや、処理機能が正常に動作するかを確認するプログラムである。
ノード20は、上記の動作を行うためCPUの複数のコアのそれぞれの動作を制御する制御回路と、テストプログラムの実行の要求を受けたときにCPUでテストプログラムを実行して結果を出力する機能を有している。
図6は、クラスタシステムとして構成されている本実施形態の情報システムの構成を模式的に示したものである。図6の情報システムでは、複数のノードがクラスタを形成している。また、ノードは、複数のコアを有するCPUと、メモリを備えている。図6に示すように、制御サーバのスケジューラ部によってクラスタを形成するノードにジョブが割り当てられて投入されている。また、スケジューラ部は、診断部を介してノードのオンラインとオフラインの指示を行うことで、ノードのオンラインとオフラインの切り替えを制御する。
図7は、図6の情報システムでテストプログラムを実行する際の動作を模式的示したものである。図7では、「ノード3」がオフラインの状態である様子を示している。また、オフラインの「ノード3」のCPUのうち「コア2」が動作し、「ノード3」は、省電力モードで動作している。CPUのコアのうち「コア2」以外のコアは、低クロック周波数での動作状態か停止状態となっている。図7の状態で、制御サーバの診断部は、記憶部からテストプログラムを読み出して、省電力モードの「ノード3」にテストプログラムの実行を要求する。「ノード3」は、動作している「コア2」とメモリによってテストプログラムを実行する。
本実施形態の情報システムの動作について説明する。以下の説明では、ノード20として第1のノード31、第2のノード32および第3のノード33が用いられている場合を例に説明する。ノード20の数は、4つ以上であってもよい。
始めに、本実施形態の情報システムにおいて負荷の変動や現用系と待機系のノードの切り替えなどを行う際に、一部のノードを省電力モードに切り替えて試験を行う際の動作について説明する。図5は、本実施形態の情報システムにおいて、第3のノード33をオフラインに移行して試験を行う際の動作フローを示したシーケンス図である。また、図5および以下の各図において第1のノード31、第2のノード32および第3のノード33の実線部はオンラインの状態を示し、破線部はオフラインの状態を示している。
制御サーバ10のスケジュール制御部14は、ノードの省電力モードへの切り替え動作を開始すると、履歴保存部15を参照して省電力モードへ移行したノードの履歴を確認する。スケジュール制御部14は、ノード間で省電力モードへ移行する頻度に偏りが生じないように、省電力モードに移行するノードを選択する(ステップ101)。例えば、第1のノード31と、第2のノード32に省電力モードに移行した記録が残っていたとき、スケジュール制御部14は、第3のノード33を省電力モードに移行するノードとして選択する。
スケジュール制御部14は、第3のノード33を省電力モードに移行するノードとして選択すると、診断部12のノード制御部16に第3のノード33をオフラインにする指示を送る(ステップ102)。また、スケジュール制御部14は、オフラインにする第3のノード33の識別子と、オフラインに移行した日時の情報を履歴保存部15に保存する。
診断部12のノード制御部16は、第3のノード33をオフラインにする指示を受け取ると、第3のノード33をオフラインに切り替える(ステップ103)。第3のノード33をオフラインにすると、ノード制御部16は、第3のノード33のオフラインへの切り替えが完了したことを示す通知をスケジュール制御部14に送る(ステップ104)。
オフラインにしたことを示す通知を送ると、ノード制御部16は、第3のノード33を省電力モードにする動作を開始する。省電力モードにする動作を開始すると、診断履歴保存部17を参照して、第3のノード33を省電力モードで動作させた際のCPUのコアの動作履歴を確認する。省電力モード時の第3のノード33のCPUのコアの動作履歴を確認すると、省電力モード時のCPUのコアの動作履歴に偏りがないように動作させるコアを1つ選択する(ステップ105)。動作回数が同じコアが複数ある場合には、コアの選択はランダムに行われてもよく、コアの番号順などあらかじめ設定された優先順位に基づいてコアの選択が行われてもよい。
省電力モード時に動作させるCPUのコアを選択すると、ノード制御部16は、省電力モードへの移行の要求と、動作させるCPUのコアの情報を第3のノード33に送る(ステップ106)。第3のノード33は、省電力モードへ移行の要求を受け取ると、指定されたCPUのコアとメモリで動作する省電力モードで動作する状態に移行する(ステップ107)。
省電力モードへの移行の要求等を送ると、ノード制御部16は、第3のノード33のノードの識別子と、動作させるCPUのコアの情報と、省電力モードに移行した日時を関連づけて診断履歴保存部17に保存する。
第3のノード33が省電力モードで動作している間、スケジュール制御部14は、発生したジョブを第1のノード31および第2のノード32に割り当てることでジョブの実行を制御する。
第3のノード33が省電力モードで動作している間、ノード制御部16は、所定のタイミングでテストプログラムを第3のノード33に実行させることによって、第3のノード33の異常の有無を確認する。所定のタイミングは、例えば、時刻や時間間隔を基にあらかじめ設定されている。所定のタイミングには、省電力モードへの移行の直後が含まれていてもよい。
第3のノード33でテストプログラムを実行させる際に、ノード制御部16は、記憶部13からテストプログラムを読み出して、テストの実行の要求とテストプログラムのデータを第3のノード33に送る(ステップ108)。第3のノード33は、テストの実行の要求を受け取ると、省電力モードにおいても継続して動作しているCPUのコアとメモリでテストプログラムを実行する(ステップ109)。テストプログラムを実行すると、第3のノード33は、テストの実行結果をノード制御部16に通知する(ステップ110)。
ノード制御部16は、テストの実行結果を受け取ると、実行結果の情報を、第3のノード33のノードの識別子と、省電力モードで動作を継続しているCPUのコアの情報と、テストの日時と、テスト結果を関連づけて診断履歴保存部17に保存する。また、ノード制御部16は、テストの実行結果に基づいて、第3のノード33の異常の有無の情報をスケジュール制御部14に送る(ステップ111)。
次に、図5のフローの動作を行った際に、オフラインにしてテストプログラムを実行した第3のノード33を、再び、オンラインに移行させる際の動作について説明する。図6は、図5においてオフラインにしてテストプログラムを実行した第3のノード33をオンラインに移行させる際の動作フローを示すシーケンス図である。
スケジュール制御部14は、負荷の増加等によってオンラインへ移行するノードが生じたときにオンラインに切り替えるノードを選択する(ステップ112)。ここでは、スケジュール制御部14は、第3のノード33をオンラインに切り替えるノードとして選択したとする。
スケジュール制御部14は、第3のノード33をオンラインへ移行するときに、ノード制御部16に第3のノード33をオンラインに移行する要求を送る(ステップ113)。第3のノード33をオンラインに移行する要求を受け取ると、ノード制御部16は、第3のノード33の省電力モードを解除し、通常モードに移行させる(ステップ114)。
第3のノード33は、省電力モードを解除の通知を受けると、CPUの全てのCPUのコアが動作可能な状態である通常モードに移行する(ステップ115)。
第3のノード33の省電力モードを解除すると、ノード制御部16は、第3のノード33をオンラインに切り替える(ステップ116)。第3のノード33をオンラインに切り替えると、ノード制御部16は、第3のノード33のオンラインへの切り替えが完了したことを示す通知をスケジュール制御部14に送る(ステップ117)。
スケジュール制御部14は、第3のノード33のオンラインへの切り替えが完了したことを示す通知を受け取ると、オンラインに移行した第3のノード33へのジョブの割り当てを開始する(ステップ118)。
次に、本実施形態の情報システムの他の動作の例として、省電力モードのノードのテストを実行する際の例について説明する。図7、図8および図9は、第1のノード31、第2のノード32および第3のノード33にジョブを割り当てて実行している際に、第1のノード31を省電力モードに移行してテストを実行する際の動作フローを示したシーケンス図である。
ノードのテストを開始すると、制御サーバ10のスケジューラ部11のスケジュール制御部14は、テストを行うノードを選択する(ステップ121)。ここでは。スケジュール制御部14は、第1のノード31をテストと行うノードとして選択したとして説明する。
第1のノード31をテストの対象として選択すると、スケジュール制御部14は、第1のノード31をシステムから切り離すため、診断部12のノード制御部16に第1のノード31をオフラインに切り替える指示を送る(ステップ122)。また、スケジュール制御部14は、オフラインにするノード、すなわち、第1のノード31の識別子と、オフラインに移行した日時の情報を履歴保存部15に保存する。
ノード制御部16は、第1のノード31をオフラインにする指示を受け取ると、第1のノード31をオフラインに切り替える(ステップ123)。第1のノード31をオフラインに移行させると、ノード制御部16は、第1のノード31がオフラインへの切り替えが完了したことを示す通知をスケジュール制御部14に送る(ステップ124)。
スケジュール制御部14にオフラインに移行したことを示す通知を送ると、ノード制御部16は、第1のノード31を省電力モードに移行させる。省電力モードに移行させる際に、ノード制御部16は、CPUのコアの省電力モードでの動作履歴に偏りがないようにコアを選択する(ステップ125)。省電力モードにおいて継続して動作させるCPUのコアを選択すると、ノード制御部16は、第1のノード31を省電力モードに移行する(ステップ126)。また、ノード制御部16は、省電力モードに移行する第1のノード31の識別子と、動作を継続させるコアの識別子の情報を診断履歴保存部17に保存する。
省電力モードへの移行の指示を受け取ると、第1のノード31は、ノード制御部16によって選択されたCPUのコアを動作状態とした省電力モードに移行する。第1のノード31は、ノード制御部16によって選択されたCPUのコア1つとメモリで動作する(ステップ127)。
スケジュール制御部14は、第1のノード31がオフラインに移行したことを示す通知をノード制御部16から受け取ると、次に発生したジョブを第1のノード31以外のノードに割り当てる。図7および図8では、スケジュール制御部14は、ステップ128およびステップ129において、第2のノード32および第3のノード33にジョブを投入している。また、第2のノード32および第3のノード33は、それぞれ導入されたジョブをステップ129およびステップ131で実行し、ジョブの実行結果をステップ136およびステップ137においてスケジュール制御部14に送っている。ステップ128およびステップ129におけるジョブの投入と、ステップ129およびステップ131におけるジョブの実行は、ジョブが発生するごとに繰り返し行われる。
ノード制御部16は、第1のノード31を省電力モードに移行させると、第1のノード31で異常の有無を確認するためのテストプログラムを実行させる。ノード制御部16は、記憶部13からテストプログラムのデータを読み出し、テストプログラムの実行の要求と、データを第1のノード31に送る(ステップ132)。
テストプログラムの実行の要求と、データを受け取ると、第1のノード31は、テストプログラムを実行する(ステップ133)。第1のノード31は、テストプログラを実行すると実行結果をノード制御部16に送る(ステップ134)。
テストプログラムの実行結果の情報を受け取ると、ノード制御部16は、実行結果の情報を、テストを行ったノードの異常の有無の情報の通知としてスケジュール制御部14に送る(ステップ135)。
第1のノード31が正常であることを示す情報を受け取ると、スケジュール制御部14は、オフラインのノードをオンラインに移行する必要があるタイミングでノード制御部16に第1のノード31をオンラインに切り替える指示を送る(ステップ138)。ノード制御部16は、第1のノード31をオンラインにする指示を受け取ると、第1のノード31の省電力モードを解除する(ステップ139)。
省電力モードの解除の指示を受け取ると、第1のノード31は、CPUの全てのコアを動作状態として通常モードに移行する(ステップ140)。
第1のノード31の省電力モードを解除すると、ノード制御部16は、第1のノード31をオンラインに切り替える(ステップ141)。第1のノード31をオンラインに切り替えると、ノード制御部16は、第1のノード31のオンラインへの移行が完了したことを示す通知をスケジュール制御部14に送る(ステップ142)。第1のノード31がオンラインに移行したことを示す通知を受け取ると、スケジューラ部11は、それまでオンラインだった第2のノード32および第3のノード33に加えて、第1のノード31にジョブを割り当てて、ジョブの実行を行う。
図9では、スケジュール制御部14は、ステップ143、ステップ145およびステップ147において、第1のノード31、第2のノード32および第3のノード33にそれぞれジョブを投入している。また、第1のノード31、第2のノード32および第3のノード33は、ステップ144、ステップ146およびステップ148において投入されたジョブを実行している。
次に、本実施形態の情報システムの他の動作の例として、テストを行った第1のノード31において異常が検知されて、待機系としてオフライン状態の第3のノード33をオンラインに移行する場合の例について説明する。図10、図11および図12は、テストを実行した第1のノード31において異常が検知されて、オフラインの第3のノード33をオンラインに移行する際の動作フローを示したシーケンス図である。
ノードのテストを開始すると、制御サーバ10のスケジューラ部11のスケジュール制御部14は、テストを行うノードを選択する(ステップ151)。ここでは、スケジュール制御部14は、第1のノード31をテストと行うノードとして選択したとして説明する。
スケジュール制御部14は、第1のノード31をシステムから切り離すため、ノード制御部16に第1のノード31をオフラインに切り替える指示を送る(ステップ152)。また、スケジュール制御部14は、オフラインにするノード、すなわち第1のノード31の識別子と、オフラインに移行した日時の情報を履歴保存部15に保存する。
ノード制御部16は、第1のノード31をオフラインに切り替える指示を受け取ると、第1のノード31をオフラインに切り替える(ステップ153)。第1のノード31をオフラインに切り替えると、ノード制御部16は、第1のノード31のオフラインへの切り替えが完了したことを示す通知をスケジュール制御部14に送る(ステップ154)。
スケジュール制御部14にオフラインへの切り替えが完了したことを示す通知を送ると、ノード制御部16は、第1のノード31を省電力モードに移行させる。省電力モードに移行させる際に、ノード制御部16は、CPUのコアの省電力モードでの動作履歴に偏りがないように、省電力モードにおいて動作させるコアを選択する(ステップ155)。また、ノード制御部16は、省電力モードに移行する第1のノード31の識別子と、省電力モードにおいて動作させるコアの識別子の情報を診断履歴保存部17に保存する。
スケジュール制御部14は、第1のノード31のオフラインへの切り替えが完了したことを示す通知をノード制御部16から受け取ると、発生したジョブをオンラインの第2のノード32に割り当てる。図10および図11では、ステップ158においてスケジュール制御部14によって第2のノード32にジョブが投入され、第2のノード32は、ステップ159においてジョブを実行している。また、ステップ164において、第2のノード32は、ジョブの実行結果をスケジュール制御部14に送っている。ステップ158におけるジョブの投入およびステップ159におけるジョブの実行等は、ジョブが発生数ごとに繰り返し行われる。
ステップ156において第1のノード31を省電力モードに移行させると、ノード制御部16は、第1のノード31に異常の有無を確認するためのテストプログラムを実行させる。ノード制御部16は、記憶部13からテストプログラムのデータを読み出し、テストプログラムの実行の要求と、データを第1のノード31に送る(ステップ160)。
テストプログラムの実行の要求と、データを受け取ると、第1のノード31は、継続して動作しているCPUのコアとメモリによってテストプログラムを実行する(ステップ161)。テストプログラムを実行すると、第1のノード31は、テストプログラムの実行結果をノード制御部16に送る(ステップ162)。
テストプログラムの実行結果の情報を受け取ると、ノード制御部16は、実行結果の情報を基に第1のノード31の異常の有無の情報をスケジュール制御部14に通知する(ステップ163)。
例えば、第1のノード31に異常が生じているとすると、ノード制御部16は、テストプログラムの実行結果を基に異常の発生を検知して、第1のノード31に異常が発生していることを示す情報をスケジュール制御部14に送る。
第1のノード31に異常が発生していることを示す情報を受け取ると、スケジュール制御部14は、ノード制御部16に第3のノード33をオンラインに切り替える指示を送る(ステップ165)。ノード制御部16は、第3のノード33をオンラインに切り替える指示を受け取ると、第3のノード33の省電力モードを解除する(ステップ166)。第3のノード33は、省電力モードの解除の指示を受け取ると、CPUの全てのコアを動作させる通常モードに移行する。
第3のノード33の省電力モードを解除すると、ノード制御部16は、第3のノード33をオンラインに切り替える(ステップ168)。第3のノード33をオンラインに切り替えると、ノード制御部16は、第3のノード33のオンラインへの切り替えが完了したことを示す通知をスケジュール制御部14に送る(ステップ169)。
第3のノード33のオンラインへの切り替えが完了したことを示す通知を受け取ると、スケジュール制御部14は、第2のノード32に加えて、オンラインに移行した第3のノード33にジョブを割り当てて、ジョブの実行を行う。図12では、スケジュール制御部14は、ステップ170およびステップ172において、第3のノード33および第2のノード32にそれぞれジョブを投入している。また、第2のノード32および第3のノード33は、ステップ171およびステップ173において投入されたジョブを実行している。このとき、異常が検知されている第1のノード31はオフラインを継続し、作業者等によって故障の修理や置き換えが行われる。
本実施形態の情報システムでは、オフラインのノード20は、省電力モードで動作する際に複数CPUのコアのうち1つのコアとメモリのみ動作させ、他のコアはクロック周波数を低下させるか停止させることによって消費電力を抑制している。制御サーバ10のノード制御部16は、省電力モードで継続して動作している1つのコアとメモリを使用してテストプログラムを実行し故障の有無を確認することで、通常モードに復帰させた後に、ジョブを再開させた際のジョブアボートを未然に防ぐことができる。また、故障を検出した場合には、早期に保守作業の開始を行うことができる。
また、本実施形態の情報システムでは、スケジュール制御部14は、ノードのオンラインとオフラインを管理しているため、オフラインにしたノード20の履歴を残している。また、スケジュール制御部14は、オフラインにするノード20に偏りがなく全ノード20をオフラインするように制御をする。また、ノード制御部16は、ノード20の省電力モードを管理している。省電力モードでは使用するコアは1つまたはテストに必要な最小限のコアのみであるため、ノード制御部16は、ノード20毎に使用したコア番号等の履歴を残し使用コアに偏りがなく全コアを使用するように制御する。このように、本実施形態の情報システムでは、システムの全ノード20およびCPUの全コアに対して巡回的に省電力モードを適用した上でテストプログラムを実行し故障の有無を確認する。その結果、本実施形態の情報システムは、クラスタシステムにおいて消費電力を抑制しつつ信頼性を維持することができる。
第2の実施形態では、各ノード20は、複数のコアを有するCPUを1つ備えている例について示したが、各ノードは、複数のCPUを備えていてもよい。そのような構成の場合には、省電力モードにおける動作の継続の有無の管理をCPU単位で行ってもよい。
また、第2の実施形態の制御サーバ10のスケジュール制御部14およびノード制御部16の動作は、情報処理装置においてコンピュータプログラムを実行することで行われてもよい。そのような動作を行うコンピュータプログラムは、ハードディスクドライブ、半導体記憶装置、光学ディスクおよびその他の記録媒体に記録して頒布することもできる。
1 コア選択手段
2 ノード制御手段
10 制御サーバ
11 スケジューラ部
12 診断部
13 記憶部
14 スケジュール制御部
15 履歴保存部
16 ノード制御部
17 診断履歴保存部
20 ノード

Claims (10)

  1. 割り当てられたジョブをそれぞれ実行する複数のノードのうち選択された前記ノードのCPU(Central Processing Unit)の複数のコアから、選択された前記ノードが一部の前記コアで動作する省電力モードにおいて動作を継続させる前記コアを選択するコア選択手段と、
    選択された前記ノードを、前記コア選択手段が選択した前記コアを動作させた前記省電力モードに移行させ、前記省電力モードにおいても継続して動作している前記コアでテストプログラムを実行させるノード制御手段と
    を備えることを特徴とする制御装置。
  2. 前記コア選択手段は、前記省電力モードにおける前記コアの選択履歴が前記ノードごとの前記コア間で平準化されるように、前記省電力モードで動作を継続させる前記コアを選択することを特徴とする請求項1に記載の制御装置。
  3. 前記ノード制御手段は、前記テストプログラムの実行によって正常に動作すると判断された前記ノードを、全ての前記コアが動作している通常モードに移行させることを特徴とする請求項1または2に記載の制御装置。
  4. 前記コア選択手段は、選択された前記ノードが前記省電力モードのときに動作を継続させる前記コアを、前記ノードの前記省電力モードでの動作中に再選択し、
    前記ノード制御手段は、再選択された前記コアを動作させた前記省電力モードで動作するように前記ノードを制御し、再選択された前記コアに前記テストプログラムを実行させることを特徴とする請求項1から3いずれかに記載の制御装置。
  5. 複数の前記ノードのうち前記省電力モードに移行するノードを、前記ノード間において前記省電力モードに移行する回数が平準化されるように選択するノード選択手段をさらに備え、
    前記ノード制御手段は、前記ノード選択手段が選択した前記ノードを前記省電力モードに移行させることを特徴とする請求項1から4いずれかに記載の制御装置。
  6. 複数のコアを有するCPUと、
    複数の前記コアのそれぞれの動作を制御するCPU制御手段と、
    テストプログラムの実行の要求を受けたときに前記CPUで前記テストプログラムを実行して結果を出力するテスト実行制御手段と
    を備え、
    前記CPU制御手段は、省電力モードへ移行する要求を受けたときに、複数の前記コアのうち一部の前記コアのみを動作状態とし、
    前記テスト実行制御手段は、前記省電力モードにおいて動作している前記コアにおいて前記テストプログラムを実行することを特徴とするノード。
  7. 請求項1から5いずれかに記載の制御装置と、
    請求項6に記載の複数のノードと
    を備え、
    前記制御装置の前記ノード制御手段は、複数の前記ノードの一部を前記省電力モードに移行させ、
    前記省電力モードに移行した前記ノードの前記CPU制御手段は、前記コア選択手段によって選択された前記コアを動作させた前記省電力モードで動作することを特徴とする情報システム。
  8. 割り当てられたジョブをそれぞれ実行する複数のノードのうち選択された前記ノードのCPUの複数のコアから、前記ノードが一部の前記コアで動作する省電力モードにおいて動作を継続させる前記コアを選択し、
    選択された前記ノードを、選択した前記コアを動作させた前記省電力モードに移行し、
    前記省電力モードにおいても継続して動作している前記コアでテストプログラムを実行させることを特徴とする制御方法。
  9. 前記省電力モードにおける前記コアの選択履歴が前記ノードごとの前記コア間で平準化されるように、前記省電力モードで動作を継続させる前記コアを選択することを特徴とする請求項8に記載の制御方法。
  10. 複数の前記ノードのうち前記省電力モードに移行するノードを、前記ノード間において前記省電力モードに移行する回数が平準化されるように選択し、
    選択した前記ノードを前記省電力モードに移行させることを特徴とする請求項8または9に記載の制御方法。
JP2017025015A 2017-02-14 2017-02-14 制御装置、情報システムおよび制御方法 Active JP6798900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017025015A JP6798900B2 (ja) 2017-02-14 2017-02-14 制御装置、情報システムおよび制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017025015A JP6798900B2 (ja) 2017-02-14 2017-02-14 制御装置、情報システムおよび制御方法

Publications (2)

Publication Number Publication Date
JP2018132876A JP2018132876A (ja) 2018-08-23
JP6798900B2 true JP6798900B2 (ja) 2020-12-09

Family

ID=63248375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017025015A Active JP6798900B2 (ja) 2017-02-14 2017-02-14 制御装置、情報システムおよび制御方法

Country Status (1)

Country Link
JP (1) JP6798900B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185520A (ja) * 1995-12-28 1997-07-15 Nec Corp クラスタ構成システムにおける試験診断方式
US7412353B2 (en) * 2005-09-28 2008-08-12 Intel Corporation Reliable computing with a many-core processor
JP5332518B2 (ja) * 2008-10-31 2013-11-06 日本電気株式会社 ビルドアップ方式電子計算機、切替制御方法及びプログラム
US8543857B2 (en) * 2009-09-26 2013-09-24 Intel Corporation Method and apparatus for low power operation of multi-core processors
CN103902379A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种任务调度方法、装置及服务器集群
KR102082859B1 (ko) * 2013-01-07 2020-02-28 삼성전자주식회사 복수의 이종 코어들을 포함하는 시스템 온 칩 및 그 동작 방법
US20150169363A1 (en) * 2013-12-18 2015-06-18 Qualcomm Incorporated Runtime Optimization of Multi-core System Designs for Increased Operating Life and Maximized Performance

Also Published As

Publication number Publication date
JP2018132876A (ja) 2018-08-23

Similar Documents

Publication Publication Date Title
JP6132766B2 (ja) データセンタサービスの制御された自動復旧
JP4771916B2 (ja) データ格納制御装置、データ格納制御方法、データ格納制御プログラムおよびデータ記憶システム
JP5537073B2 (ja) 電力系統監視制御システム
JP6273927B2 (ja) 情報処理システム,監視装置,監視プログラム,監視方法
US20050283673A1 (en) Information processing apparatus, information processing method, and program
WO2010122709A1 (ja) 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法
JP5910444B2 (ja) 情報処理装置、起動プログラム、および起動方法
CN101021769B (zh) 早期检测存储设备降级的装置和方法
TW201730764A (zh) 用來於一儲存系統中進行資料擦洗管理之方法與裝置
JPWO2009081737A1 (ja) 縮退構成設計システムおよび方法
JP5593718B2 (ja) ストレージ装置、ストレージ装置制御プログラムおよびストレージ装置制御方法
JP6798900B2 (ja) 制御装置、情報システムおよび制御方法
JP2011159363A (ja) テープライブラリ制御装置、テープライブラリ制御方法及びテープライブラリ制御プログラム
JP2012113391A (ja) プラント制御システム、イコライズデータ選択装置、および、イコライズデータ選択方法
JP6142576B2 (ja) ストレージ制御装置、ストレージ装置およびストレージ制御方法
JP2011191906A (ja) データ記憶装置、データ監視装置、制御方法及びプログラム
JP2008117268A (ja) 情報管理システム
JP6814020B2 (ja) 情報処理装置とその制御方法、及びプログラム
JP4985033B2 (ja) バックアッププログラム、バックアップ方法およびバックアップ装置
JP7057178B2 (ja) 管理ノード、ノード、クラスタシステムおよびノード制御方法
JP2018194947A (ja) ストレージ装置、制御プログラム、及び制御方法
JP6810356B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2010140106A (ja) ジョブ実行システム、該システムに用いられるジョブフロー引継ぎ方法及びジョブフロー引継ぎ制御プログラム
JP2020119233A (ja) ディスクアレイ装置及びディスクアレイ装置における障害対応方法
JP2022178916A (ja) 機械学習システム、機械学習プログラム、及び、機械学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201119

R150 Certificate of patent or registration of utility model

Ref document number: 6798900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150