JP2024095192A - マルチノードシステム及び電源制御方法 - Google Patents

マルチノードシステム及び電源制御方法 Download PDF

Info

Publication number
JP2024095192A
JP2024095192A JP2022212295A JP2022212295A JP2024095192A JP 2024095192 A JP2024095192 A JP 2024095192A JP 2022212295 A JP2022212295 A JP 2022212295A JP 2022212295 A JP2022212295 A JP 2022212295A JP 2024095192 A JP2024095192 A JP 2024095192A
Authority
JP
Japan
Prior art keywords
node
node system
nodes
power supply
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022212295A
Other languages
English (en)
Inventor
翼 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JP2024095192A publication Critical patent/JP2024095192A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】部分停電が発生した場合であっても、容易かつ適切にマルチノードシステムによる処理を開始させることができるようにする。
【解決手段】1以上のコントローラ20を含むノード10を複数備えるマルチノードシステム1において、コントローラ20を、プロセッサ21と、電源制御マイコン25と、メモリ22と、不揮発性メモリ23と、を備えるようにし、プロセッサ21を、ノード10における電断による稼働停止を検知し、複数のノード10の稼働状況に基づいて、マルチノードシステム1の稼働継続が可能であるか否かを判定し、稼働継続が可能でない場合に、メモリ22に格納された必要なデータを不揮発性メモリ23に格納させ、電源制御マイコン25にプロセッサ21の再起動を実行させ、再起動後に、電断が発生したノード10の電断が解消された場合に、マルチノードシステム1の処理を開始させるように構成する。
【選択図】図2

Description

本発明は、1以上のコントローラを含むノードを複数備えるマルチノードシステムにおける電源制御の技術に関する。
ストレージシステムとして、例えば、顧客の要件に応じてスモールスタートが可能であり、ノードの拡張により性能の向上が容易であるマルチノード構成のシステム(マルチノードシステム)が知られている。
マルチノードシステムにおいては、停電復旧時に自動でノードが立ち上がり、停電直前の状態、すなわち、IO処理が可能な状態に復旧することが要請される。
これに対して、マルチノードシステムの各ノードにおいては、停電の復旧時に自動的に電源をオンにする機能(Auto-PSON機能)を備えるようにしている。このような構成によると、マルチノードシステムの全ノードが停電により電断となり、停電が復旧した場合には、全てのノードが立ち上がってIO処理が可能な状態になることができる。
関連する技術として、例えば、特許文献1には、電源部とDKCの多重構成のディスクアレイ装置において、停電で一方のクラスタが停止した場合において、他方のクラスタが一方のクラスタの停止が停電によるものであると認識すると、その部位を回復する処理を行う技術が知られている。
特開2006-235673号公報
マルチノードシステムにおいて、複数のノードにおいて電源境界がある場合等においては、部分停電が発生する可能性がある。例えば、一部のノードにマルチノードシステムとしてのIO処理に必要な制御情報が管理されている構成のマルチノードシステムにおいては、部分停電が発生すると部分停電による電断が発生したノードが動作を停止し、電断されていないノード(残存ノード)は、他のノードの動作の停止を検出して、自ノードを閉塞する閉塞処理を行う。
このような場合において、部分停電が復旧すると電断で動作を停止していたノードの電源がオンにされて起動されることとなるが、残存ノードは閉塞されておる状態となっている。この結果、マルチノードシステムは、部分停電が発生する前のIO処理が可能な状態にもどることができない。
この場合には、残存ノードを再起動等するために保守員による作業が必要となり、マルチノードシステムによるIO処理を開始するために長時間を要してしまう虞もある。
本発明は、上記事情に鑑みなされたものであり、その目的は、部分停電が発生した場合であっても、容易かつ適切にマルチノードシステムによる処理を開始させることのできる技術を提供することにある。
上記目的を達成するため、一観点に係るマルチノードシステムは、1以上のコントローラを含むノードを複数備えるマルチノードシステムであって、前記コントローラは、プロセッサと、前記コントローラにおける電源を制御する電源制御デバイスと、揮発性メモリと、不揮発性メモリと、を備え、前記プロセッサは、それぞれの前記ノードにおける電断による稼働停止を検知し、前記複数のノードの稼働状況に基づいて、前記マルチノードシステムの稼働継続が可能であるか否かを判定し、前記マルチノードシステムの稼働継続が可能でない場合に、前記揮発性メモリに格納された必要なデータを前記不揮発性メモリに格納させ、前記電源制御デバイスに前記プロセッサの再起動を実行させ、前記再起動後に、電断が発生した前記ノードの電断が解消された場合に、前記マルチノードシステムの処理を開始させる。
本発明によれば、部分停電が発生した場合であっても、容易かつ適切にマルチノードシステムによる処理を開始させることができる。
図1は、一実施形態に係るマルチノードシステムの全体構成図である。 図2は、一実施形態に係るマルチノードシステムの詳細な構成図である。 図3は、一実施形態に係る稼働状況監視テーブルの構成図である。 図4は、一実施形態に係る電源制御処理のフローチャートである。
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
以下の説明では、「AAAテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「AAAテーブル」を「AAA情報」と呼ぶことができる。
図1は、一実施形態に係るマルチノードシステムの全体構成図である。
マルチノードシステム1は、複数のノード10が共働して、管理しているデータに対するIO処理を行っている。本実施形態においては、複数のノード10の一部のノード10が、複数のノード10によるIO処理に必要な制御情報を記憶している。ここで、制御情報としては、例えば、複数のノード10がクラスタとして動作するために必要な、データがどのノードに格納されているかを管理する情報等である。マルチノードシステム1は、複数のノード(Node)10と、複数のノード10間を通信可能に接続するノード間接続ハブ(Hub)2と、を含む。ノード間接続ハブ2と、ノード10とは、通信線(例えば、PCIe用配線)を介して接続されている。本実施形態では、ノード間接続ハブ2は、各ノード10の各コントローラ20と少なくとも1以上の通信線により接続されている。
ノード10は、例えば、データを管理するストレージ装置であり、1以上のコントローラ(CTL)20と、1以上の記憶デバイス30と、1以上の電源部(PS)40とを含む。
コントローラ20は、図示しない外部装置からの記憶デバイス30に対するデータのIO処理を制御する。記憶デバイス30は、例えばハードディスクやフラッシュメモリなどであり、各種データを記憶する。電源部40は、例えば、商用のACをDCに変換して、ノード10内の各部に電力を供給する。
次に、マルチノードシステム1の詳細な構成について説明する。
図2は、一実施形態に係るマルチノードシステムの詳細な構成図である。なお、図2においては、一部の構成については記載を省略している。
マルチノードシステム1の各ノード10は、2つのコントローラ20と、2つの電源部40とを備える。本実施形態では、各電源部40は、それぞれが、2つのコントローラ20に電力を供給できるように構成されている。
各コントローラ20は、プロセッサの一例としてのCPU(Central Processing Unit)21と、メモリ22と、不揮発性メモリ23と、電源制御デバイスの一例としての電源制御マイコン25とを含む。
CPU21は、メモリ22に格納されているプログラムに従って各種処理を実行する。
メモリ22は、例えば、DRAM(RANDOM ACCESS MEMORY)等の揮発性メモリであり、CPU21で実行されるプログラムや、CPU21の処理で必要データや、記憶デバイス30に書き込むためのデータ又は記憶デバイス30から読み出されたデータ等を記憶する。メモリ22は、稼働状況監視テーブル50を記憶する。
不揮発性メモリ23は、例えば、フラッシュメモリ等の電力の供給がなくてもデータの記憶を維持できるメモリである。
電源制御マイコン25は、コントローラ20内のCPU21、メモリ22,不揮発性メモリ23等の各構成に対する電力の供給を制御する。電源制御マイコン25は、停電の発生を検出した場合には、図示しないバッテリ等からCPU21等に電力を供給し、データの退避処理等の停電処理を指示し、停電処理が終了した場合に、CPU21等への電力の供給を停止し、その後、停電が解消した場合には、CPU21等に電力の供給を開始する。本実施形態では、電源制御マイコン25は、CPU21から停電動作の要求を受けた場合にも、停電の発生を検出した場合と同様な処理を実行する。
次に、稼働状況監視テーブル50について説明する。
図3は、一実施形態に係る稼働状況監視テーブルの構成図である。
稼働状況監視テーブル50は、各ノードの稼働状況を管理するテーブルであり、各ノードごとのエントリを格納する。稼働状況監視テーブル50のエントリは、ノード番号51と、稼働状況52とを含む。ノード番号51には、ノード10を識別する情報(ノード番号)が格納される。稼働状況52には、エントリに対応するノード10の稼働状況が格納される。稼働状況としては、稼働していることを示す稼働中、稼働停止の一例である停電等がある。
次に、マルチノードシステム1の処理動作について説明する。
図4は、一実施形態に係る電源制御処理のフローチャートである。電源制御処理は、例えば、各ノード10の各コントローラ20で実行される処理であり、コントローラ20のCPU21が、ノード間接続ハブ2を介して接続された他のノード10のコントローラ20との間のパスが切断されたことを検出した場合に実行される。
CPU21は、切断されたパスに基づいて、このパスで接続されていたノード10に停電(部分停電)による電断が発生したか否かを判定し、ノード10に電断が発生している場合には、稼働状況監視テーブル50の対応するノードの稼働状況を停電に更新する(S11)。ここで、ノード10に電断が発生していることは、例えば、同一のノード10の全てのコントローラ20との間の全てのパスが切断されている(通信不能となっている)ことにより判定してもよい。
次いで、CPU21は、マルチノードシステム1としての処理(本実施形態では、IO処理)の稼働の継続(システム稼働継続)が可能であるか否かを判定する(S12)。ここで、例えば、マルチノードシステム1における所定数(例えば、2つ)以上のノードが稼働不可である場合に、システム稼働継続が可能でないと判定してもよく、また、マルチノードシステム1としての処理の実行に必要な制御情報を管理しているすべてのノード10が稼働不可である場合に、システム稼働継続が可能でないと判定してもよく、また、マルチノードシステム1としての処理の性能が所定の性能以下となる場合に、システム稼働継続が可能でないと判定してもよい。
この結果、システム稼働継続が可能である場合(S12:Yes)には、CPU21は、パスの切断が検出されたコントローラ20を閉塞として扱うように設定する処理(他CTL閉塞処理)を実行し(S13)、処理を終了する。
一方、システム稼働継続が可能でない場合(S12:No)には、CPU21は、電源制御マイコン25に対して、停電動作を要求する(S14)。
電源制御マイコン25は、停電動作要求を検出すると(S31)、停電発生通知をCPU21に送信する(S32)。
CPU21は、電源制御マイコン25から停電発生通知を受け取ると、停電処理を開始し(S15)、メモリ22やCPU21の内部の揮発性メモリ等に記憶された必要な情報(例えば、キャッシュしているデータ、マルチノードシステム1によるIO処理に必要な制御情報等)を、不揮発性メモリ23に格納(ストア)することを開始し(S16)、必要な情報の格納が完了すると(S17)、コントローラ20の電源OFFの要求を電源制御マイコン25に送信する(S18)。
電源制御マイコン25は、電源OFFの要求を受領すると(S33)、コントローラの電源をOFFにする(S34)。この状態においては、電源制御マイコン25は、ACの給電を検出する状態となる。
この場合においては、このノード10に対するAC給電は続いているので、電源制御マイコン25は、ACの給電を検出すると(S35)、ノード10の各構成の電源をON(再起動)する(S36)。
電源制御マイコン25により電源をONとされると、CPU21の電源がONとなり(S19)、CPU21は、マルチノードシステム1の他のノードがONとなるのを待つ(S20)。この場合には、部分停電となったノード以外の稼働中であったすべてのノード(残存ノード)が、部分停電となったノードが停電から復旧してONになるのを待つこととなる。
この後、部分停電となったノード10が停電から復旧すると、CPU21は、マルチノードシステム1としてIO処理をするための設定や、検査等の処理を実行し(S21)、不揮発性メモリ23にストアしたデータを元の記憶領域に戻すリストアを開始し(S22)、リストアを完了すると(S23)、ノード10は、マルチノードシステム1としてIO処理可能な状態(Ready状態)となる(S24)。次いで、CPU21は、部分停電から自動復旧した旨の復旧メッセージを出力させる指示を所定の装置(例えば、ノード10にある図示しない管理装置等)に指示する(S25)。これにより、復旧メッセージを、マルチノードシステム1の管理者が認識可能なように表示させることができる。
上記したマルチノードシステム1によると、部分停電からノード10が復旧した場合に、保守員が処理することなく、自動的にIO処理を実行できる状態にすることができる。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
例えば、上記実施形態では、各ノード10の各コントローラ20、すなわち、すべてのコントローラ20が電源制御処理を実行するようにしていたが、本発明はこれに限られず、少なくとも1以上のコントローラ20のみが電源制御処理を実行するようにしてもよい。
1…マルチノードシステム、2…ノード間接続ハブ、10…ノード、20…コントローラ、21…CPU、22…メモリ、23…不揮発性メモリ、25…電源制御マイコン


Claims (7)

  1. 1以上のコントローラを含むノードを複数備えるマルチノードシステムであって、
    前記コントローラは、プロセッサと、前記コントローラにおける電源を制御する電源制御デバイスと、揮発性メモリと、不揮発性メモリと、を備え、
    前記プロセッサは、
    それぞれの前記ノードにおける電断による稼働停止を検知し、
    前記複数のノードの稼働状況に基づいて、前記マルチノードシステムの稼働継続が可能であるか否かを判定し、
    前記マルチノードシステムの稼働継続が可能でない場合に、前記揮発性メモリに格納された必要なデータを前記不揮発性メモリに格納させ、
    前記電源制御デバイスに前記プロセッサの再起動を実行させ、
    前記再起動後に、電断が発生した前記ノードの電断が解消された場合に、前記マルチノードシステムの処理を開始させる
    マルチノードシステム。
  2. 前記プロセッサは、
    所定数のノードが稼働停止である場合に、前記マルチノードシステムの稼働継続が可能でないと判定する
    請求項1に記載のマルチノードシステム。
  3. 前記複数のノードの中の一部のノードのコントローラが前記マルチノードシステムの稼働に必要な制御情報を格納している
    請求項1に記載のマルチノードシステム。
  4. 前記プロセッサは、
    前記制御情報を格納しているすべてのノードが稼働停止である場合に、前記マルチノードシステムの稼働継続が可能でないと判定する
    請求項3に記載のマルチノードシステム。
  5. 前記ノードは、複数の通信可能なパスを有し、
    前記プロセッサは、前記ノードの全てのパスが通信不能となったことを、前記ノードにおける電断による稼働停止が発生したものとして検知する
    請求項1に記載のマルチノードシステム。
  6. 前記プロセッサは、
    前記マルチノードシステムの処理を開始させた後に、部分停電から自動復旧した旨のメッセージを出力させる
    請求項1に記載のマルチノードシステム。
  7. 1以上のコントローラを含むノードを複数備えるマルチノードシステムによる電源制御方法であって、
    前記コントローラは、プロセッサと、前記コントローラにおける電源を制御する電源制御デバイスと、揮発性メモリと、不揮発性メモリと、を備え、
    前記コントローラは、
    それぞれの前記ノードにおける電断による稼働停止を検知し、
    前記複数のノードの稼働状況に基づいて、前記マルチノードシステムの稼働継続が可能であるか否かを判定し、
    前記マルチノードシステムの稼働継続が可能でない場合に、前記揮発性メモリに格納された必要なデータを前記不揮発性メモリに格納させ、
    前記電源制御デバイスに前記プロセッサの再起動を実行させ、
    前記再起動後に、電断が発生した前記ノードの電断が解消された場合に、前記マルチノードシステムの処理を開始させる
    電源制御方法。



JP2022212295A 2022-12-28 マルチノードシステム及び電源制御方法 Pending JP2024095192A (ja)

Publications (1)

Publication Number Publication Date
JP2024095192A true JP2024095192A (ja) 2024-07-10

Family

ID=

Similar Documents

Publication Publication Date Title
US8707096B2 (en) Storage system, data backup method, and system restarting method of a storage system incorporating volatile and nonvolatile memory devices
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
US20160328010A1 (en) Shutdown of computing devices
JP2014071668A (ja) 情報処理装置、起動プログラム、および起動方法
JPWO2010061446A1 (ja) 情報処理装置,処理部切換方法及び処理部切換プログラム
JP5773166B2 (ja) 計算機の制御方法、計算機及び計算機システム
TW201617900A (zh) 共享的備用電力自更新模式
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP6124644B2 (ja) 情報処理装置および情報処理システム
CN107111459B (zh) 存储系统及其控制方法
JP2024095192A (ja) マルチノードシステム及び電源制御方法
US20240219986A1 (en) Multi-node system and power supply control method
JP2013125493A (ja) コンピュータシステム、待機電力削減方法、及びプログラム
JP2013061841A (ja) 情報処理装置および情報処理装置の試験方法
CN111427721B (zh) 异常恢复方法及装置
JP2010147803A (ja) 通信装置および通信装置起動時の運用情報復元方法
JP2017021498A (ja) 制御システム、その制御装置
JP5422426B2 (ja) 情報処理装置
JP2007156744A (ja) 分散監視制御システム
JP4157807B2 (ja) 無停電電源装置
JP2007249614A (ja) システム装置及び情報収集方法
JP2003242044A (ja) マイクロコンピュータ回路
JP2013137699A (ja) 鉄道用電力系統監視制御装置