JP4715552B2 - 障害検出方式 - Google Patents

障害検出方式 Download PDF

Info

Publication number
JP4715552B2
JP4715552B2 JP2006054287A JP2006054287A JP4715552B2 JP 4715552 B2 JP4715552 B2 JP 4715552B2 JP 2006054287 A JP2006054287 A JP 2006054287A JP 2006054287 A JP2006054287 A JP 2006054287A JP 4715552 B2 JP4715552 B2 JP 4715552B2
Authority
JP
Japan
Prior art keywords
boot
server
server module
module
diagnostic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006054287A
Other languages
English (en)
Other versions
JP2007233667A (ja
Inventor
光昭 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006054287A priority Critical patent/JP4715552B2/ja
Publication of JP2007233667A publication Critical patent/JP2007233667A/ja
Application granted granted Critical
Publication of JP4715552B2 publication Critical patent/JP4715552B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stored Programmes (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)

Description

本発明はサーバの障害検出方式に関する。
通常、企業の基幹システムなどのエンタープライズ用途で使用する計算機システムには24時間365日休みなく稼動することが求められ、高い可用性が要求される。そのため、このような計算機システムにはサーバモジュール部の他に管理モジュールを含むことが一般的である。管理モジュールは、サーバモジュール部の各種制御や障害検出などを行う機能を有する。特に障害検出処理は高可用性を実現するために重要であり、障害発生時の早期検出が求められる。高可用性を実現する一つの方法として、特許文献1ではサーバモジュールの挿入時にサーバモジュールが自発的にエラーを検出し、管理コンソールへ通知する方式が開示されている。しかし、この方式で検出可能な障害は、サーバモジュールの電源投入後、自己診断機能により検出するエラーに限定され、たとえば自己診断機能の起動以前の段階で発生する電源、回路系の障害や、ネットワークスイッチを含むブートパス障害を検出することができないという問題があった。また、従来自己診断のプログラムはBIOS等の組み込みソフトに固定的に収容され、サーバモジュールに対し様々な組み合わせで接続されるIO装置に対して、処理を変更できないため、十分な障害検出ができないという問題があった。
特表2002−543521号公報
本発明の目的は、サーバモジュールの電源投入後に実行される自己診断では検出不可能な障害を検出する手段を提供することにある。
本発明は、CPU、メモリを含んだサーバモジュールと該サーバモジュールの管理を行う管理モジュールとからなり、オペレーティングシステムを含むソフトウェアイメージを前記サーバモジュールにブートするブート手段を備えた計算機システムにおいて、サーバ診断用プログラムを含んだ診断ブートイメージを前記サーバモジュールにネットワークブートするネットワークブート手段を前記管理モジュールに備え、前記管理モジュールは前記ソフトウェアイメージがブートされる前に、前記ネットワークブート手段により前記診断ブートイメージを前記サーバモジュールにブートし、前記サーバモジュールが前記サーバ診断用プログラムを実行することを特徴とする。
本発明により、システム起動前の障害検出が可能になる。
以下、図面を参照して本発明の実施例を詳細に説明する。
図1は、本発明に置ける実施例の全体図を示している。計算機システム101には、管理モジュール102、サーバモジュール109、スイッチモジュール114が含まれている。管理モジュール102と、サーバモジュール109はスイッチモジュール114を介して接続されている。管理モジュール102には、ネットワークブートサーバ部106、診断結果判定部105、電源制御部103、ブートデバイス切替制御部104、及び診断用ブートイメージ107が含まれている。電源制御部103は、サーバモジュール109の電源の投入、遮断を制御する機能を有する。ブートデバイス切替制御部104は、サーバモジュール109中のブートパス切替部110と、スイッチモジュール114中のパス切替部115に接続されており、これらにパス切替要求を行う機能を有する。パス切替要求の詳細は後述する。
診断用ブートイメージ107は、複数のサーバ診断用プログラム108を保持している。サーバ診断用プログラム108には全部位を汎用的にチェック可能な障害診断用プログラムと、特定部位を詳細に診断するプログラムが存在する。診断用ブートイメージ107をブートすると、自動的にサーバ診断用プログラム108が起動するようになっている。このとき起動するプログラムは外部より設定可能である。診断結果判定部105は、サーバ診断用プログラム108の結果を受け、障害が発生しているか否かの判定を行い、ある部位で障害を検出した場合、サーバ診断用プログラム108をさらに詳しい診断を実行可能なプログラムに変更する機能を有する。
サーバモジュール109にはCPU、メモリ111、電源112、ブートパス切替部110、電源・HWエラー検出回路130が含まれており、ブートパス切替部110中にはパス切替スイッチ116が存在する。ブートパス切替部110は、ブートデバイス切替制御部104からの要求を受け、パス切替スイッチ116を、ポイント117とポイント119の接続、もしくはポイント118とポイント119に切り替える機能を有する。通常運用では、パス切替スイッチ116はポイント117とポイント119を接続した状態になっており、サーバモジュールが持つブートデバイス113からオペレーティングシステムを含むソフトウェアイメージをブートする設定となっている。このパス切替スイッチ110は、機能的な概念図であり、ブート対象は、たとえば内蔵ハードディスクや、ネットワーク経由のブートパスであり、これらをBIOSなどの組み込みソフトウエアによって切り替える方式でも良い。
また、電源・HWエラー検出回路130は、サーバモジュール109内の電源状態や、ブートデバイス113の障害状態、CPU、メモリ111の障害状態を検出する回路であり、サーバモジュール109の主電源投入により、ステータスを管理モジュール102の診断結果判定部105に出力する。
スイッチモジュール114には、パス切替部115が含まれており、パス切替部115にはパス切替スイッチ120が存在する。パス切替部115は、ブートデバイス切替制御部104からの要求を受け、パス切替スイッチ120を、ポイント121とポイント123の接続、もしくはポイント122とポイント123に切り替える機能を有する。
通常運用では、パス切替スイッチ120はポイント122とポイント123を接続した状態になっており、計算機システム101外部のネットワーク124と接続する設定となっている。
本実施例の概要は以下の通りである。サーバモジュール109が計算機システム101に装着されたとき、管理モジュール102がそれを検出し、ブートデバイス切替制御部104からの指示でブートパス切替部110中のパス切替スイッチ116をポイント118とポイント119の接続とし、また、パス切替部115中のパス切替スイッチ120をポイント123とポイント121の接続とすることで、サーバモジュール109のブートデバイスパスを通常運用時のブートデバイス113から遮断し、管理モジュール中の診断用ブートイメージ107に接続する。次に、ネットワークブートサーバ部106を起動し、電源制御部103から電源投入を行うことで、ネットワークブートにより診断用ブートイメージ107を使用してサーバモジュール109をブートさせる。
診断用ブートイメージ107がロード完了すると、自動的に障害診断用プログラム108が起動する。このとき起動する診断プログラムは、全部位を汎用的にチェック可能な診断プログラムである。プログラムの終了後、結果を管理モジュールの診断結果判定部105に送信する。診断結果判定部105は診断結果を判定し、障害が発生しているかどうかを判断する。障害が発生していなかった場合、電源制御部103から電源遮断を行い、サーバモジュール109の電源を切断した後で、ブートパス切替部110とパス切替部115の設定を通常運用時の状態に戻すことで、再びブートデバイス113からのブートが可能になる。これにより、サーバモジュール109では障害が発生していないことが分かったため、ユーザの通常運用を開始する。
診断結果判定部105での判定結果で障害が発生していたとき、障害部位が特定できたならば、診断結果判定部105はサーバモジュール109の運用を停止し、保守員への通報などのアクションを行う。保守員は、通報された結果により障害が発生した部品の交換などを行う。
一方、第一回目の障害診断用プログラムにより、障害部位の大まかな箇所しか分からず、障害部位が特定できなかった場合、たとえばCPUで障害が起きているが、具体的にどのCPUに障害が発生しているか分からない状態などは、サーバ診断プログラム108をその特定部位を詳細に調査するプログラムに変更し、再度サーバ診断プログラム108を実行する。このように、障害を検出した場合に複数のプログラムを実行することで、障害部位特定の分解能を上げることができる。
図2は、本発明の方式を実現するための管理モジュール102のフローを示している。まず、管理モジュール102はサーバモジュール109の挿入を検出する(201)。管理モジュール102はサーバモジュール109の挿入を検出すると、ネットワークブートサーバ起動を行う(202)。これにより、管理モジュール102はネットワークブートサーバとなる。このとき、ネットワークブートを行うブートデバイスを、診断用ブートイメージ107に設定する方法を説明する。まず、ブートパス切替を行い(203)、サーバモジュール109のブートデバイスパスを、管理モジュール102中の診断用ブートイメージ107に変更する。次に、ネットワークパス切替えを行い(204)、スイッチモジュールのパスを、サーバモジュールと管理モジュールが接続するような設定に変更する。この状態で電源投入を行うと(205)、サーバモジュールは管理モジュール中のブートデバイスを使用して、ネットワークブートを行う。電源投入完了後、管理モジュールは診断結果の受信待ちに入る(206)。電源・ハードウェアエラー検出回路130により障害が検出された場合は、自己診断のプログラムが実行不可であるため、ユーザ運用停止(212)に移行する。
この間、サーバモジュールでは診断用ブートイメージのブート、及び障害診断用プログラムの実行を行い、結果を管理モジュールに送信する。診断結果を受信すると(207)、電源の遮断を行い、202〜204で行った設定を解除する(208)。この時点で、201で挿入を検出したときと同じ構成に戻る。次に、診断結果の判定を行う(209)。診断結果が合格“OK”だった場合、該サーバモジュールに障害は発生していなかったので、サーバモジュールのユーザ運用を開始する(211)。診断結果が不合格“NG”だった場合、障害部位が特定できたかを判定する(210)。障害部位特定が“OK”だった場合、該サーバモジュールのユーザ運用を中止し(212)、障害が発生した部位の交換作業を行う。障害部位特定が“NG”だった場合、診断プログラムをより適したものに変更し、再度診断機能を実行する(213)。
上記説明のように、本発明では、電源・HWエラー検出回路130による障害検出、全部位を汎用的にチェック可能な診断プログラム、部位特定に特化したプログラムを段階的に実行することで、自己診断の期間を短縮し、かつ障害部位を詳細に特定することが可能となる。具体的な効果として、計算機システム101の起動時間を大幅に増加させず、かつ交換部品の特定がスムーズに進むため、ダウン時間を低減することができる。
なお、本方式によれば、ブートデバイス113を接続する以前に、診断用ブートイメージ107によりサーバモジュール109の診断を実施しているため、ユーザ運用開始前に、これらブートパス切替え部分110と、スイッチモジュール114の動作を事前に確認することが可能である。
本発明の実施例の全体構成図である。 本発明の実施例のフロー図である。
符号の説明
101 計算機システム
102 管理モジュール
103 電源制御部
104 ブートデバイス切替制御部
105 診断結果判定部
106 ネットワークブートサーバ部
107 診断用ブートイメージ
108 サーバ診断用プログラム
109 サーバモジュール
110 ブートパス切替部
111 CPU、メモリ
112 電源
113 サーバモジュールに接続されたブートデバイス
114 スイッチモジュール
115 パス切替部
116、117、118、119 ブートパス切替部内のパス切替スイッチ
120、121,122,123 パス切替部内のパス切替スイッチ
124 計算機システム外部のネットワーク
130 電源、HWエラー検出回路

Claims (1)

  1. CPU、メモリを含んだサーバモジュールと該サーバモジュールの管理を行う管理モジュールとからなり、オペレーティングシステムを含むソフトウェアイメージを前記サーバモジュールにブートするブート手段を備えた計算機システムにおいて、前記管理モジュールはサーバ診断用プログラムを含んだ診断ブートイメージを有すると共に該診断ブートイメージを前記サーバモジュールにネットワークブートするネットワークブート手段を備え、前記計算機システムは前記ソフトウェアイメージをブートするパスと前記診断ブートイメージをブートするパスを切替えるスイッチ手段を備え、前記管理モジュールは前記スイッチ手段にブートパスの切替えを指示して前記ソフトウェアイメージブートする前に、前記診断ブートイメージを前記サーバモジュールにブートし、前記サーバモジュール前記サーバ診断用プログラムを実行させることを特徴とする障害検出方式。
JP2006054287A 2006-03-01 2006-03-01 障害検出方式 Expired - Fee Related JP4715552B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006054287A JP4715552B2 (ja) 2006-03-01 2006-03-01 障害検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006054287A JP4715552B2 (ja) 2006-03-01 2006-03-01 障害検出方式

Publications (2)

Publication Number Publication Date
JP2007233667A JP2007233667A (ja) 2007-09-13
JP4715552B2 true JP4715552B2 (ja) 2011-07-06

Family

ID=38554204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006054287A Expired - Fee Related JP4715552B2 (ja) 2006-03-01 2006-03-01 障害検出方式

Country Status (1)

Country Link
JP (1) JP4715552B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706955B2 (en) 2011-07-01 2014-04-22 Apple Inc. Booting a memory device from a host
JP6627366B2 (ja) * 2015-09-25 2020-01-08 日本電気株式会社 情報処理システム、情報処理方法およびプログラム
CN114089722B (zh) * 2021-11-17 2024-03-26 国家石油天然气管网集团有限公司 一种输气站场工控网络通讯故障便携式诊断方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58168160A (ja) * 1982-03-29 1983-10-04 Fujitsu Ltd プログラムロ−デイング方式
JPH10228434A (ja) * 1997-02-13 1998-08-25 Pfu Ltd ネットワークを利用したハードウェア診断システム
JP2005165415A (ja) * 2003-11-28 2005-06-23 Toshiba Corp 情報処理装置、システム起動方法、およびシステム起動プログラム

Also Published As

Publication number Publication date
JP2007233667A (ja) 2007-09-13

Similar Documents

Publication Publication Date Title
CN113489597B (zh) 用于网络装置的最佳启动路径的方法和系统
CN100582799C (zh) 电子设备诊断方法和系统
CN110928743B (zh) 一种计算系统、自动诊断方法及存储有其指令的介质
TWI337304B (en) Method for fast system recovery via degraded reboot
US7941658B2 (en) Computer system and method for updating program code
US20110099544A1 (en) Information processing apparatus and system setting method
US20090150528A1 (en) Method for setting up failure recovery environment
US6763456B1 (en) Self correcting server with automatic error handling
US20130117518A1 (en) System controller, information processing system and method of saving and restoring data in the information processing system
JP2015035175A (ja) 情報処理装置、仮想マシン制御方法および仮想マシン制御プログラム
JP4886558B2 (ja) 情報処理装置
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
JP4715552B2 (ja) 障害検出方式
CN120255970B (zh) 基板管理控制器启动方法、计算机设备、介质及产品
CN114138574B (zh) 控制器测试方法、装置、服务器和存储介质
CN105027083B (zh) 使用诊断结果的恢复程序
JP2003186697A (ja) 周辺デバイス試験システム及び方法
JP7389877B2 (ja) ネットワークの最適なブートパスの方法及びシステム
CN103136064B (zh) 开机错误处理方法
JP4830698B2 (ja) 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法
JP2002229798A (ja) コンピュータシステムとそのバイオス管理方法、及びバイオス管理プログラム
JP6911591B2 (ja) 情報処理装置、制御装置および情報処理装置の制御方法
JP2009025967A (ja) 二重化ファームウェアのバックアップ方式、方法、及び、オペレーティングシステム
JP4165423B2 (ja) コアi/oカードを実装したシステムボード
JP6627366B2 (ja) 情報処理システム、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100903

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110314

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees