JP2013156942A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2013156942A
JP2013156942A JP2012018957A JP2012018957A JP2013156942A JP 2013156942 A JP2013156942 A JP 2013156942A JP 2012018957 A JP2012018957 A JP 2012018957A JP 2012018957 A JP2012018957 A JP 2012018957A JP 2013156942 A JP2013156942 A JP 2013156942A
Authority
JP
Japan
Prior art keywords
unit
value
monitoring target
monitoring
processing circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012018957A
Other languages
English (en)
Inventor
Atsushi Kinoshita
篤 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2012018957A priority Critical patent/JP2013156942A/ja
Publication of JP2013156942A publication Critical patent/JP2013156942A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Power Sources (AREA)

Abstract

【課題】
複数のモジュール部の一部に異常が生じた場合、異常が生じたモジュール部への電力の供給を遮断し、他のモジュール部への影響を無くすこと。
【解決手段】
複数のモジュール部と、各モジュール部を監視する監視部を有し、各モジュール部は、演算処理を実行する演算処理回路と、電源部と演算処理回路とを結ぶ電源ラインを開閉するスイッチと、演算処理回路の異常を検出した場合、異常検出信号を発生する異常検出器から構成される。監視部は、異常検出信号を受信した場合、異常検出信号を発生した異常検出器が属するモジュール部を監視対象モジュール部とし、監視対象モジュール部が、監視対象の回数を示す監視対象判別値を算出し、監視対象判別値が、設定値以上であることを条件に、監視対象モジュール部のスイッチに、電源ラインの遮断を指示する。
【選択図】図1

Description

本発明は、演算処理機能を有する複数のモジュール部を有する情報処理装置に関する。
情報処理システムとして、例えば、利用者側にクライアント端末を配置し、管理者側に管理サーバを配置し、管理サーバとクライアント端末とをそれぞれネットワークを介して接続し、管理サーバが情報処理装置を管理するクライアント・サーバシステムがある。この種のシステムにおいて、クライアント端末には、例えば、HDD(Hard Disk Drive)などの記憶デバイスを装備せずに、データの表示やデータの入力などの簡単な処理機能を有するクライアント専用のコンピュータ、所謂シンクライアントが用いられる。
一方、情報処理装置は、例えば、ラック型ケース内に、複数のモジュール部が、ブレードとして配置されて構成される。各モジュール部は、例えば、CPU(Central Processing Unit)、主記憶部、補助記憶部、入出力部、状態監視コントローラ(BMC)、ホットスワップ(Hot Swap)コントローラなどから構成され、各部が、バスを介して互いに接続されるとともに、監視部に接続される。各モジュール部には、電源部から電力が供給され、CPUが、プログラムに従って各種の演算処理を実行する。
この際、監視部は、各モジュール部と情報の授受を行って、各モジュール部の動作状態を監視する。状態監視コントローラは、例えば、CPUの温度を監視し、監視結果を、バスを介して監視部に送信する。監視部は、例えば、CPUの温度が、設定温度を超えた場合には、CPUをシャットダウンするための処理を実行する。ホットスワップコントローラは、例えば、特許文献1に記載されているように、各モジュール部が着脱される際に発生するノイズを吸収することができる。
特表2009−516489号公報
従来の情報処理装置において、複数のモジュール部のうちいずれか1つのモジュール部で異常が生じた場合、例えば、モジュール部に属するCPUの温度が設定温度を超えた場合、CPUはシャットダウンされる。しかし、CPU以外の部品に故障が生じ、モジュール部に異常値を示す電流が流れた場合、システムによっては、電力不足によってシステム全体が停止することがある。一部のモジュール部の異常によってシステム全体が停止すると、運用障害やデータ破損が生じることがある。
本発明は、前記従来技術の課題に鑑みて為されたものであり、その目的は、複数のモジュール部の一部に異常が生じた場合、異常が生じたモジュール部への電力の供給を遮断し、他のモジュール部への影響を無くすことができる情報処理装置を提供することにある。
前記課題を解決するために、本発明は、複数のモジュール部と、前記各モジュール部に電力を供給する電源部と、前記各モジュール部と情報の授受を行って、前記各モジュール部を監視する監視部とを有し、前記各モジュール部は、前記電源部から電力の供給を受けて演算処理を実行する演算処理回路と、前記電源部と前記演算処理回路とを結ぶ電源ラインを前記監視部からの指示に従って開閉するスイッチと、前記演算処理回路の異常を検出した場合、異常検出信号を発生する異常検出器と、から構成され、前記監視部は、前記いずれかのモジュール部に属する異常検出器から前記異常検出信号を受信した場合、前記異常検出信号を発生した異常検出器が属するモジュール部を監視対象モジュール部として管理すると共に、前記監視対象モジュール部が、監視対象となる回数を示す監視対象判別値を算出し、前記算出した監視対象判別値が、前記監視対象モジュール部に設定された第1の設定値以上であることを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする。
本発明によれば、複数のモジュール部の一部に異常が生じた場合、異常が生じたモジュール部への電力の供給を遮断し、他のモジュール部への影響を無くすことができる。
情報処理システムの構成図である。 情報処理装置の構成図である。 監視部とモジュール部との関係を説明するための構成図である。 テーブル情報の構成図である。 監視部の不定期監視処理を説明するためのフローチャートである。 監視部の定期監視処理を説明するためのフローチャートである。
以下、本発明の一実施例を図面に基づいて説明する。
図1は、本発明の一実施例を示す情報処理システムの全体構成図である。図1において、情報処理システムは、複数のユーザ端末10と、ネットワークハブ12と、ネットワーク14と、管理サーバ16と、情報処理装置18から構成される。各ユーザ端末10は、ネットワークハブ12を介してネットワーク14に接続される。管理サーバ16は、ネットワーク14に接続されるとともに、情報処理装置18に接続される。情報処理装置18は、ラック型ケース(シャーシ)20内に収納される。
各ユーザ端末10は、例えば、HDDなどの記憶デバイスを装備せず、データの表示やデータの入力などの簡単な処理機能を有するクライアント専用のコンピュータ、所謂シンクライアントとして構成される。
管理サーバ16は、例えば、CPU、主メモリ、HDDなどの記憶装置、キーボード、マウスなどの入力装置、表示装置を備えて構成される。この管理サーバ16は、いずれかのユーザ端末10から、情報処理装置18を使用するための起動指示が発行された場合、この起動指示をネットワーク14を介して受信し、受信した起動指示に含まれるIP(Internet Protocol)アドレスの情報などを基に、情報処理装置18内の1つのモジュール部を特定する機能を有する。この際、各ユーザ端末10と、管理サーバ16との間で、暗号機能、復号機能を有する通信データを送受信することで、セキュリティを確保することができる。この場合、ネットワーク14としては、社内ネットワークだけでなく、インターネットなどの公衆網を用いることができ、ユーザの利便性の向上を図ることができる。
図2に、情報処理装置の具体的構成図を示す。図2において、情報処理装置18は、複数のモジュール部30と、各モジュール部30に電力を供給する電源部32と、各モジュール部30と情報の授受を行って、各モジュール部30を監視する監視部34と、各モジュール部30をネットワーク14に接続するためのネットワークモジュール部36と、情報処理装置18内の各部を互いに接続するための接続基板38から構成される。
接続基板38には、監視部34と各モジュール部30とを結ぶ信号伝達用のバス40と、ネットワークモジュール部36と各モジュール部30とを結ぶ情報通信用のバス42と、電源部32と各モジュール部30とを結ぶ電源ライン44が実装される。
各モジュール部30は、電源部32から電力の供給を受けて演算処理を実行する演算処理回路50と、電源部32と演算処理回路50とを結ぶ電源ライン44を監視部34からの指示に従って開閉するスイッチ52と、各モジュール部30が着脱される際に発生するノイズを吸収するホットスワップ回路(Hot Swap IC)54と、演算処理回路50の状態を監視する状態監視コントローラ(以下、BMC(Baseboard Management Controller)と称することがある)56から構成される。なお、各モジュール部30には、主記憶デバイス、補助記憶デバイス、入出力インタフェース、通信インタフェース、初期制御プログラム(いずれも図示せず)も配置される。
演算処理回路50、スイッチ52、ホットスワップ回路54、BMC56はそれぞれバス40に接続される。演算処理回路50は、例えば、CPUで構成され、通信インタフェースを介してバス42に接続される。この場合、演算処理回路50の演算処理の結果は、バス42、ネットワークモジュール36、ネットワーク14を介して各ユーザ端末10に伝達される。
ホットスワップ回路54には、電源部32から、電源ライン44を介して電力が供給される。演算処理回路50とBMC56には、電源部32から、電源ライン44とスイッチ52を介して電力が供給される。
監視部34は、テーブル情報60と、監視プログラム62を有し、監視プログラム62に従って各モジュール部30と情報の授受を行い、各モジュール部30の状態を監視する。
具体的には、図3に示すように、監視部34は、バス40を介して、ホットスワップ回路54、スイッチ52、BMC56、演算処理回路50にそれぞれ接続される。ホットスワップ回路54は、演算処理回路50の電流値または電圧値を収集し、演算処理回路50の電流または電圧の異常を検出したときに、異常検出信号として、例えば、アラート信号をバス40を介して監視部34に送信する異常検出器として機能する。
この際、監視部34は、モジュール部30に電力が供給されていることを条件に、ホットスワップ回路54から、演算処理回路50の電流値または電圧値を示す情報を収集し、収集した情報を判別し、この判別で、演算処理回路54の電流値または電圧値が、異常値以上であるとの判別結果を得た場合には、スイッチ52に対して、電源ライン44の遮断を指示する。なお、監視部34は、モジュール部30が正常状態にある際には、スイッチ52に対して電源ライン44を閉じる指示を出力する。
BMC56は、演算処理回路50の温度、即ち、CPU温度を監視するとともに、モジュール部30に内蔵された電源のオン・オフ状態を監視し、この監視結果をバス40を介して監視部34に伝達する。この際、BMC56は、CPU温度が、異常値を示す場合には、異常検出信号として、例えば、アラート信号(警告アラート)を監視部34に送信する異常検出器として機能する。この場合、監視部34は、モジュール部30に電源部32から電力が供給されていることを条件に、BMC56から、CPU温度に関する情報を収集し、収集した情報を判別し、この判別で、CPU温度が、異常値以上であるとの判別結果を得た場合には、スイッチ52に対して、電源ライン44の遮断を指示する。
また、演算処理回路50は、CPUクロック、CPU負荷率に関する情報をバス40を介して監視部34に伝達する。
次に、図4に、テーブル情報60の構成図を示す。図4において、テーブル情報60は、監視部34に配置されるテーブル情報であって、スロット番号フィールド70と、モジュール情報フィールド80と、識別値情報フィールド90から構成される。
スロット番号は、各モジュール部30が、ラック型ケース20に搭載される際の搭載位置を示す番号である。スロット番号フィールド70のエントリには、スロット番号として、「01」〜「W」の情報が格納される。この場合、Wはモジュール部30の総数を示す。
モジュール情報フィールド80は、CPUの種類フィールド81と、CPUの基準クロックフィールド82と、警告電流値フィールド83と、異常電流値フィールド84と、CPUの基準負荷率フィールド85と、CPUの基準温度フィールド86から構成される。この際、CPUの種類とは、演算処理回路50を構成するCPUの種類である。警告電流値は、演算処理回路50の電流として警告を要する電流値を示す。異常電流値は、演算処理回路50の電流が異常であることを示す値である。CPUの基準負荷率は、演算処理回路50の基準負荷率を示す。CPUの基準温度は、演算処理回路50の基準温度を示す。
識別値情報フィールド90は、モジュール状態フィールド91と、定期監視対象Tフィールド92と、監視対象判別値Xフィールド93と、正常動作確認値Sフィールド94から構成される。
モジュール状態は、各モジュール部30の電源のオン・オフ状態を示す情報である。モジュール状態フィールド91のエントリには、モジュール部30の電源がオンの場合には、「ON」の情報が格納され、モジュール部の電源がオフの場合には、「OFF」の情報が格納される。
定期監視対象Tは、各モジュール部30が、定期監視対象となったか否かを示す情報である。定期監視対象Tフィールド92のエントリには、各モジュール部30が、定期監視対象Tとなった場合には「ON」の情報が格納され、各モジュール部30が、定期監視対象Tから外れた場合には、「OFF」の情報が格納される。
監視対象判別値Xは、各モジュール部30が、監視対象となった回数を示す情報である。監視対象判別値Xフィールド93のエントリには、各モジュール部30が監視対象となった回数が、数値で格納される。
正常動作確認値Sは、各モジュール部30が、正常動作した回数を示す情報である。正常動作確認値Sフィールド94のエントリには、各モジュール部30が、正常動作した回数が、数値で格納される。
次に、監視部の処理を図5のフローチャートに従って説明する。この処理は、例えば、ホットスワップ回路54からアラート信号が発生した場合に開始される。
まず、監視部34は、ホットスワップ回路54から、警告アラートを受信した場合、処理を開始し(S11)、受信した警告アラートのログを、監視部34のメモリに記録して残す(S12)。
次に、監視部34は、テーブル情報60を参照し、警告アラートが発生したスロット番号のモジュール部30を監視対象モジュール部30として管理すると共に、監視対象モジュール部30の監視対象判別値Xの値を確認し(S13)、X=Zであるか否かを判定する(S14)。ここで、Zは、モジュール部30が、監視対象となった回数(監視対象モジュール部となった回数)を判定するための設定値であって、任意の数値で設定された第1の設定値である。例えば、モジュール部30が、5回監視対象となったときに、モジュール部30が異常であると判定する場合には、Zは、5に設定される。
ステップS14において、例えば、監視対象モジュール部30が、初めて警告アラートを発生した場合、監視対象モジュール部30の監視対象判別値Xの値は0であって、設定値未満であるので、監視部34は、XがZよりも小さいと判定し、次に、テーブル情報60を参照し、モジュール状態を確認し(S15)、監視対象モジュール部30の電源が、オンかまたはオフかを判定する(S16)。
監視対象モジュール部30の電源が、オンであると判定した場合、監視部34は、ホットスワップ回路54から、演算処理回路50の電流値を取得して確認し(S17)、演算処理回路50の電流値と、テーブル情報60に記録された警告電流値及び異常電流値とを比較し、演算処理回路50の電流値が、異常電流値以上であるか、または警告電流値以上で異常電流値未満、あるいは警告電流値未満であるかを判定する(S18)。
ステップS18で、演算処理回路50の電流値が、警告電流値以上で異常電流値未満であると判定した場合は、監視部34は、演算処理回路50の電流値が、警告電流値以上で異常電流値未満である回数をカウントするためのカウンタYの値を確認し(S19)、Y=Nか否かを判定する(S20)。ここで、カウンタYは、初期値が0に設定されている。Nは、Yの値が異常値を示すか否かを判定するために設定された第2の設定値である。例えば、演算処理回路50の電流値が、警告電流値以上で異常電流値未満である回数が、5回となったときに、演算処理回路50が異常であると見做す場合には、Nは、5に設定される。
ステップS20で、例えば、Yが0であって、Nが5である場合には、監視部34は、YがNよりも小さいと判定し、次に、テーブル情報60を参照し、CPU負荷率、CPU温度、CPUクロックを確認し(S21)、この後、BMC56と演算処理回路50から、CPU負荷率、CPU温度、CPUクロックに関する情報(演算処理回路50の動作状態を示す情報)をそれぞれ取得し、取得した各情報とテーブル情報60に記録された情報とを比較し、取得した各情報が、それぞれ基準(基準値)以上であるか否かを判定する(S22)。
ステップS22で、CPU負荷率、CPU温度、CPUクロックのうち1つでも基準(基準値)以上のものが存在すると判定した場合、監視部34は、監視対象モジュール部30のCPUクロックを低下させるために、BMC56を介して演算処理回路50に、CPUクロックを低下させるための指示を発行する(S23)。
次に、監視部34は、Yを+1とし(S24)、一定時間経過したことを条件に(S25)、ステップS13の処理に戻る。
ステップS13〜ステップS25の処理を繰り返す。この過程で、ステップS18において、演算処理回路50の電流値が、異常電流値以上であると判定した場合、監視部34は、監視対象モジュール部30の監視対象判別値XをZとし(S26)、ステップS13の処理に戻る。
また、ステップS18で、演算処理回路50の電流値が、警告電流値以上で異常電流値未満であると判定した場合には、監視部34は、ステップS19、ステップS20の処理を実行し、ステップS20で、Y=Nであると判定した場合には、演算処理回路50をシャットダウンするために、シャットダウンコマンドを監視対象モジュール部30に発行する(S27)。
この後、監視部34は、テーブル情報60を参照して、監視対象モジュール部30のモジュール状態を確認し(S28)、監視対象モジュール部30の電源がオンかあるいはオフかを判定する(S29)。ステップS29で、監視対象モジュール部30の電源がオンであると判定した場合、監視部34は、監視対象モジュール部30の監視対象判別値XをZとし(S26)、ステップS13の処理に戻る。
この後、監視部34は、テーブル情報60を参照して、監視モジュール部30の監視対象判別値Xの値を確認し(S13)、X=Zであると判定した場合(S14)、監視対象モジュール部30のスイッチ52に対して、オフ信号を出力し(S30)、異常ログを、監視部34のメモリに記録して残す(S31)。この場合、スイッチ52は、監視部34からのオフ信号に応答して、電源ライン44を遮断する。これにより、電源部32から、演算処理回路50、BMC56に対する電力の供給が停止される。
また、監視部34は、ステップS16で、監視対象モジュール部30の電源が、オフである判定した場合、あるいは監視対象モジュール部30にエラーが発生したと判定した場合には、監視対象モジュール部30のスイッチ52に対して、オフ信号を出力する(S30)。この場合も、スイッチ52は、監視部34からのオフ信号に応答して、電源ライン44を遮断する。これにより、電源部32から、演算処理回路50、BMC56に対する電力の供給が停止される。
一方、監視部34は、ステップS18で、演算処理回路50の電流値が、警告電流値未満であると判定した場合、あるいはステップS22で、CPU負荷率、CPU温度、CPUクロックの値が、全て基準(基準値)未満であると判定した場合、監視対象モジュール部30のCPUクロックを通常(CPU基準クロック)に戻すための処理を実行する(S32)。
また、ステップS29で、監視対象モジュール部30の電源がオフであると判定した場合、あるいは、ステップS32の処理の後では、監視部34は、監視対象モジュール部30の定期監視対象Tをオンとし、監視対象判別値Xを+1とし、Yを0に設定し(S33)、その後、警告アラートを受信したことを条件に、ステップS11〜S33の処理を実行する。
次に、監視部の定期監視処理を図6のフローチャートに従って説明する。この処理は、一定時間毎に開始される。
まず、監視部34は、テーブル情報60を参照し、複数のモジュール部30の中に、定期監視対象T=ONが存在するかを確認し(S51)、T=ONの有無を判定する(S52)。
ステップS52で、T=ONが存在すると判定した場合、監視部34は、定期監視対象となったモジュール部30に存在するホットスワップ回路54の検出による電流値を確認し(S53)、演算処理回路50の電流値が、警告電流値以上かあるいは警告電流値未満であるかを判定する(S54)。
監視部34は、ステップS54で、演算処理回路50の電流値が、警告電流値以上であると判定した場合には、図5に示すステップS11の処理に移行し、ステップS11〜S33の処理を実行し、演算処理回路50の電流値が、警告電流値未満であると判定した場合には、テーブル情報60を参照し、モジュール部30のモジュール状態を確認する(S55)。
監視部34は、監視対象となった監視対象モジュール部30の電源がオンか否かを判定し(S56)、監視対象モジュール部30の電源が、オンであると判定した場合、カウンタYの値を確認し(S57)、Y=Nか否かを判定する(S58)。
監視部34は、ステップS58で、YがNよりも小さいと判定した場合には、テーブル情報60を参照し、CPU負荷率、CPU温度、CPUクロックをそれぞれ確認し(S59)、次に、BMC56と演算処理回路50から、CPU負荷率、CPU温度、CPUクロックに関する情報をそれぞれ取得し、取得した各情報とテーブル情報60に記録された情報とを比較し、取得した各情報が、それぞれ基準(基準値)以上か否かを判定する(S60)。
監視部34は、ステップS60で、CPU負荷率、CPU温度、CPUクロックのうち1つでも基準(基準値)以上であると判定した場合には、監視対象モジュール部30の演算処理回路50のCPUクロックを低下させるための処理を実行し(S61)、Yを+1とし(S62)、一定時間経過したことを条件に(S63)、ステップS53の処理に戻り、ステップS53〜S63の処理を繰り返す。
ステップS53〜S63の処理を実行する過程で、ステップS58で、Y=Nであると判定した場合、監視部34は、監視対象モジュール部30を確認する必要がある旨のログを、監視部34のメモリに記録して残し(S64)、監視対象モジュール部30の演算処理回路50のCPUクロックを通常(CPU基準クロック)に戻すための処理を実行する。なお、ステップS60で、CPU負荷率、CPU温度、CPUクロックの値が全て基準(基準値)未満であると判定した場合には、監視部34は、ステップS65の処理を実行する。
また、監視部34は、ステップS52で、定期監視対象Tがオフであると判定した場合には、一定時間経過したことを条件に(S66)、ステップS51の処理に戻り、ステップS51〜S65の処理を繰り返す。
また、監視部34は、ステップS56で、監視対象モジュール部30の電源が、オフであると判定した場合、あるいはステップS65の処理の後では、正常動作確認値Sを+1とし(S67)、次に、テーブル情報60を参照して、監視対象モジュール部30の正常動作確認値Sを確認し(S68)、S=Mか否かを判定する(S69)。ここで、Mは、Sの値を判定するためのカウンタであって、任意の値に設定される値である。
ステップS69で、S=Mであると判定した場合、監視部34は、テーブル情報60を参照して、監視対象モジュール部30の定期監視対象Tをオフとし、Sを0に設定する(S70)。
一方、監視部34は、ステップS69で、SがMよりも小さいと判定した場合、あるいはステップS70の処理の後では、一定時間経過したことを条件に(S66)、ステップS51〜S70の処理を繰り返す。
本実施例によれば、監視部34は、警告アラートを受信した場合、テーブル情報60を参照して、監視モジュール部30の監視対象判別値Xの値を確認し、監視対象判別値X=Z(設定値)であると判定した場合、監視対象モジュール部30のスイッチ52に対して、オフ信号を出力し、演算処理回路50と電源部32とを結ぶ電源ライン44を遮断させることができる。このため、一部のモジュール部30の異常でシステム全体の停止による運用障害やデータ破損を回避することができる。
また、監視部34は、警告アラートを受信した場合、監視対象判別値Xが設定値Z未満であっても、監視対象モジュール部30の電源が、オフである場合、あるいは監視対象モジュール部30にエラーが発生した場合には、監視対象モジュール部30のスイッチ52に対して、オフ信号を出力し、演算処理回路50と電源部32とを結ぶ電源ライン44を遮断させることができる。このため、一部のモジュール部30の異常でシステム全体の停止による運用障害やデータ破損を回避することができる。
なお、設定値Zが0に設定されている場合、監視部34は、警告アラートを受信したことを条件に、監視対象モジュール部30のスイッチ52に対して、オフ信号を出力し、演算処理回路50と電源部32とを結ぶ電源ライン44を即座に遮断させることができる。
本実施例によれば、複数のモジュール部30の一部に異常が生じた場合、異常が生じたモジュール部30への電力の供給を遮断し、他のモジュール部30への影響を無くすことができる。このため、一部のモジュール部30の異常でシステム全体の停止による運用障害やデータ破損を回避することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能である。例えば、演算処理回路50の電流又は電圧の代わりに、演算処理回路50のCPU温度を監視部34で監視し、演算処理回路50のCPU温度が異常値を示す場合には、監視部34からスイッチ52にオフ信号を出力することで、演算処理回路50と電源部32とを結ぶ電源ライン44を遮断させることができる。
また、上記の各構成、機能等は、それらの一部又は全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、IC(Integrated Circuit)カード、SD(Secure Digital)メモリカード、DVD(Digital Versatile Disc)等の記録媒体に記録して置くことができる。
10 ユーザ端末、14 ネットワーク、16 管理サーバ、18 情報処理装置、30 モジュール部、32 電源部、34 監視部、36 ネットワークモジュール部、38 接続基板、44 電源ライン、50 演算処理回路、52 スイッチ、54 ホットスワップ回路、56 BMC。

Claims (7)

  1. 複数のモジュール部と、前記各モジュール部に電力を供給する電源部と、前記各モジュール部と情報の授受を行って、前記各モジュール部を監視する監視部とを有し、
    前記各モジュール部は、
    前記電源部から電力の供給を受けて演算処理を実行する演算処理回路と、前記電源部と前記演算処理回路とを結ぶ電源ラインを前記監視部からの指示に従って開閉するスイッチと、前記演算処理回路の異常を検出した場合、異常検出信号を発生する異常検出器と、から構成され、
    前記監視部は、
    前記いずれかのモジュール部に属する異常検出器から前記異常検出信号を受信した場合、前記異常検出信号を発生した異常検出器が属するモジュール部を監視対象モジュール部として管理すると共に、前記監視対象モジュール部が、監視対象となる回数を示す監視対象判別値を算出し、前記算出した監視対象判別値が、前記監視対象モジュール部に設定された第1の設定値以上であることを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記異常検出器は、
    前記演算処理回路の電流又は電圧の異常を検出した場合、前記異常検出信号を発生し、
    前記前記監視部は、
    前記算出した監視対象判別値が、前記第1の設定値未満である場合、前記監視対象モジュール部に、前記電源部から電力が供給されていることを条件に、前記異常検出器から、前記演算処理回路の電流値又は電圧値を示す情報を収集し、前記収取した情報を判別し、前記演算処理回路の電流値又は電圧値が、異常値以上であるとの判別結果を得たことを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    前記監視部は、
    前記演算処理回路の電流値又は電圧値を判別した際に、前記演算処理回路の電流値又は電圧値が、警告値以上で異常値未満であるとの判別結果を得たことを条件に、前記異常検出器から、前記演算処理回路の動作状態を示す情報を収集し、前記収集した情報の中に基準値以上の情報が存在する場合、前記演算処理回路に対して演算処理速度の低下を指示し、その後、前記異常検出器から、前記演算処理回路の電流値又は電圧値を示す情報を収集し、前記収集した情報を再度判別し、前記演算処理回路の電流値又は電圧値が、異常値以上であるとの判別結果を得たことを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする情報処理装置。
  4. 請求項3に記載の情報処理装置であって、
    前記監視部は、
    前記収集した情報を再度判別する際に、前記演算処理回路の電流値又は電圧値が、警告値以上で異常値未満であって、その回数が、第2の設定値であるとの判別結果を得た場合、前記演算処理回路に対してシャットダウンを指示し、その後、前記監視対象モジュール部に、前記電源部から電力が供給されていることを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする情報処理装置。
  5. 請求項2に記載の情報処理装置であって、
    前記監視部は、
    前記算出した監視対象判別値が、前記第1の設定値未満である場合、前記監視対象モジュール部に、前記電源部から電力が供給されていないことを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする情報処理装置。
  6. 請求項2に記載の情報処理装置であって、
    前記監視部は、
    前記算出した監視対象判別値が、前記第1の設定値未満である場合、前記監視対象モジュール部にエラーが生じていることを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする情報処理装置。
  7. 請求項1に記載の情報処理装置であって、
    前記異常検出器は、
    前記演算処理回路の温度が異常値を示す場合、前記異常検出信号を発生し、
    前記前記監視部は、
    前記算出した監視対象判別値が、前記第1の設定値未満である場合、前記監視対象モジュール部に、前記電源部から電力が供給されていることを条件に、前記異常検出器から、前記演算処理回路の温度を示す情報を収集し、前記収取した情報を判別し、前記演算処理回路の温度が、異常値以上であるとの判別結果を得たことを条件に、前記監視対象モジュール部のスイッチに、前記電源ラインの遮断を指示してなる特徴とする情報処理装置。
JP2012018957A 2012-01-31 2012-01-31 情報処理装置 Pending JP2013156942A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012018957A JP2013156942A (ja) 2012-01-31 2012-01-31 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012018957A JP2013156942A (ja) 2012-01-31 2012-01-31 情報処理装置

Publications (1)

Publication Number Publication Date
JP2013156942A true JP2013156942A (ja) 2013-08-15

Family

ID=49052031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012018957A Pending JP2013156942A (ja) 2012-01-31 2012-01-31 情報処理装置

Country Status (1)

Country Link
JP (1) JP2013156942A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162015A (zh) * 2021-04-27 2021-07-23 湖南华自信息技术有限公司 一种主板电源异常定位保护方法及装置
US20240069786A1 (en) * 2022-08-31 2024-02-29 Fulian Precision Electronics (Tianjin) Co., Ltd. Abnormality detecting system, motherboard, and electronic device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162015A (zh) * 2021-04-27 2021-07-23 湖南华自信息技术有限公司 一种主板电源异常定位保护方法及装置
US20240069786A1 (en) * 2022-08-31 2024-02-29 Fulian Precision Electronics (Tianjin) Co., Ltd. Abnormality detecting system, motherboard, and electronic device
US12014069B2 (en) * 2022-08-31 2024-06-18 Fulian Precision Electronics (Tianjin) Co., Ltd. Abnormality detecting system, motherboard, and electronic device

Similar Documents

Publication Publication Date Title
US10402207B2 (en) Virtual chassis management controller
US8838286B2 (en) Rack-level modular server and storage framework
US8948000B2 (en) Switch fabric management
US8745438B2 (en) Reducing impact of a switch failure in a switch fabric via switch cards
CN103905253B (zh) 一种基于Nagios和BMC的服务器监控管理方法
EP3349118B1 (en) Bus hang detection and find out
CN104639380A (zh) 服务器监控方法
CN105867572A (zh) 一种整机柜服务器电源管理方法及整机柜服务器
US11640377B2 (en) Event-based generation of context-aware telemetry reports
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN107179804B (zh) 机柜装置
US8145952B2 (en) Storage system and a control method for a storage system
US11733762B2 (en) Method to allow for higher usable power capacity in a redundant power configuration
US20140189103A1 (en) System for monitoring servers and method thereof
TW201911813A (zh) 網路切換控制系統
CN106940676B (zh) 机柜的监控系统
US9927856B2 (en) Handling a failure in a system with distributed control of power and thermal management
JP2013156942A (ja) 情報処理装置
TW201729097A (zh) 機櫃裝置
US20130091380A1 (en) Dynamically Reconfiguring A Primary Processor Identity Within A Multi-Processor Socket Server
US8769088B2 (en) Managing stability of a link coupling an adapter of a computing system to a port of a networking device for in-band data communications
TWI611290B (zh) 伺服器機櫃監控方法
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
JP5422325B2 (ja) 情報処理装置
JP6303405B2 (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法