JP2001005692A - 計算機システムおよびその保守管理システム並びに障害通知方法 - Google Patents

計算機システムおよびその保守管理システム並びに障害通知方法

Info

Publication number
JP2001005692A
JP2001005692A JP11180021A JP18002199A JP2001005692A JP 2001005692 A JP2001005692 A JP 2001005692A JP 11180021 A JP11180021 A JP 11180021A JP 18002199 A JP18002199 A JP 18002199A JP 2001005692 A JP2001005692 A JP 2001005692A
Authority
JP
Japan
Prior art keywords
failure
maintenance management
mail
information
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11180021A
Other languages
English (en)
Inventor
Noboru Suzuki
昇 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11180021A priority Critical patent/JP2001005692A/ja
Publication of JP2001005692A publication Critical patent/JP2001005692A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】解析作業に必要な基本的な情報を計算機システ
ムから保守管理サイトの解析窓口等に自動的に通知でき
るようにし、障害に対する迅速な対応の実現を図る。 【解決手段】ハードウェア、オペレーティングシステム
11、またはアプリケーションプログラムに何らかの障
害が発生すると、その障害発生イベントが監視ソフトウ
ェア12に通知される。監視ソフトウェア12のログ採
取部124は、障害解析に必要な初期解析用データを計
算機システム1内のソフトウェアやハードウェアから採
取し、電子メールに添付して送信するための添付ファイ
ルを作成する。この添付ファイルはメール送信部125
によって電子メールに添付されて、保守管理サイト宛に
自動的に送信される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は障害通知機能を有す
る計算機システムおよびその保守管理システム並びに障
害通知方法に関する。
【0002】
【従来の技術】一般に、オフィスや事業所においては、
計算機システムに障害が発生した場合には、その使用者
が、保守センタの解析窓口や現場のシステム管理部門の
解析窓口等に電話などで連絡を取り、症状を伝えるとい
った運用が行われている。この場合、障害発生の事実
は、様々な部署や人を経由して、解析窓口の担当者から
実際の解析担当者へと伝えられていくことが多い。
【0003】したがって、解析担当者への情報伝達には
多くの時間を要する。特に、ソフトウェア障害やハード
ウェア障害などの障害の種類に応じて解析担当部門や解
析担当者が異なる場合には、障害解析の担当を決定する
だけで、多大な時間を要する場合があった。また、解析
担当が決定しても、その時点では、例えばマシン構成や
OSの種類、システム動作環境、障害の症状などといっ
た障害解析に必要な基本的な情報が揃っていない場合が
多い。このため、解析担当者は、現場の計算機使用者に
対してまず基本的な情報の収集を依頼することから始め
なければならず、実際に解析作業に取りかかるまでには
かなりの時間が無駄に費やされるというケースがほとん
どである。
【0004】また、従来より、計算機システムの保守管
理方法としては、遠隔保守が知られている。遠隔保守
は、保守管理対象の計算機と保守センタとを通信回線で
接続し、遠隔地から保守管理対象の計算機の障害解析な
どを行うというものである。
【0005】しかし、この遠隔保守では、保守センタの
計算機から保守管理対象の計算機に実際にログインして
障害解析に必要な基本的な情報を取得することが必要と
されるため、もしログイン後の遠隔操作を誤ると、保守
管理対象の計算機側のデータが破壊されるなどの重大な
障害を引き起こす危険がある。このため、遠隔保守を利
用する場合には、安全性確保のため、熟練した高スキル
の技術者を遠隔操作のためのオペレータとして解析窓口
に常駐させなければならず、保守管理対象の計算機が多
数存在する場合には、多大な人的コストがかかるという
問題がある。
【0006】
【発明が解決しようとする課題】上述したように、従来
では、障害が発生してから実際に解析作業に取りかかる
ことが可能な状態になるまでにかなりの時間が必要とさ
れるという問題があった。また、遠隔保守では、保守管
理対象の計算機が多数存在する場合には、多大な人的コ
ストがかかるという問題がある。
【0007】本発明はこのような事情に鑑みてなされた
ものであり、解析作業に必要な基本的な情報を計算機シ
ステムから保守管理サイトの解析窓口等に自動的に通知
できるようにし、障害に対する迅速な対応を行うことが
可能な計算機システムおよびその保守管理システム並び
に障害通知方法を提供することを目的とする。
【0008】
【課題を解決するための手段】上述の課題を解決するた
め、本発明の計算機システムは、計算機システムの障害
を検出する障害検出手段と、前記障害検出手段によって
障害の発生が検出されたとき、前記障害の解析に必要な
情報を前記計算機システムから収集する障害解析用デー
タ収集手段と、前記障害解析用データ収集手段によって
収集された情報から電子メール送信用のファイルを作成
する手段と、前記作成されたファイルを添付した電子メ
ールを保守管理サイト宛に送信し、障害発生およびその
障害の解析に必要な情報を通知する障害通知手段とを具
備することを特徴とする。
【0009】この計算機システムにおいては、障害が発
生すると、その障害の解析に必要な情報が自動的に収集
され、障害の解析に必要な情報が添付された電子メール
が保守管理サイト宛に送信される。これにより、障害発
生の事実とその障害の解析に必要な情報を自動的に計算
機システム側から保守管理サイトに通知できるようにな
り、保守管理サイトの解析担当者が解析作業に入るまで
の時間を大幅に短縮することが可能となる。
【0010】また、障害の種類毎に異なる複数の保守管
理サイトが存在する場合には、障害解析用データ収集手
段によって収集された情報に基づいて、前記発生した障
害の種類を判別する障害判別手段と、前記障害判別手段
による判別結果に基づいて、前記複数の保守管理サイト
の中から前記電子メールを送信すべき保守管理サイトを
決定する手段とをさらに具備することが好ましい。これ
により、障害の種類に該当する適切な保守管理サイト宛
に障害情報付きの電子メールを送信することが可能とな
り、障害に対するより迅速な対応が可能となる。
【0011】また、本発明は、障害の種類別に区分され
た複数の保守管理サイトおよび保守管理対象の複数の計
算機にネットワークを介して接続され、前記各保守管理
対象計算機の保守管理を行う保守管理システムであっ
て、障害が発生した保守管理対象計算機から送信される
障害情報付きの電子メールを受信および解析し、前記発
生した障害の種類を判別する障害判別手段と、前記障害
判別手段によって判別された障害の種類に対応する保守
管理サイト宛に、前記受信した電子メールを転送する手
段とを具備することを特徴とする。
【0012】これにより、障害が発生した計算機システ
ムから保守管理システム側に送信された電子メールを、
その障害の種類に対応する保守管理サイト宛に自動転送
することが可能となる。よって、保守管理システムにつ
いてはメールを受け付けるという窓口業務のみを行うだ
けで済み、人的コストの削減を図ることができる。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。
【0014】図1には、本発明の一実施形態に係る計算
機システムの構成が示されている。この計算機システム
1は、例えばオフィスや事業所などに配備されたコンピ
ュータネットワークシステムのサーバ等として使用され
るコンピュータであり、各種障害検出のための機能を有
している。障害検出機能はハードウェアおよびソフトウ
ェアによって実現されている。
【0015】すなわち、この計算機システム1において
は、ソフトウェアとしては、オペレーティングシステム
(OS)11、監視ソフトウェア12、ハードウェア
(HW)監視ドライバ13、およびRAID(Redundan
t Arrays of Inexpensive Disks)ドライバ14等が設
けられており、また、ハードウェアとしては、ハードウ
ェア(HW)検出センサ21、マザーボード22、メモ
リ23、エラー検出回路24、フラッシュメモリ25、
RAIDコントローラ26、およびRAID構成の複数
の磁気ディスク装置27等が設けられている。
【0016】監視ソフトウェア12は本実施形態の障害
通知方法を実現するためのコンピュータプログラムであ
り、ここには、オペレーティングシステム11の障害監
視を行うOSモニタ部121、ハードウェアの障害監視
を行うハードウェア(HW)モニタ部122、および計
算機システム1上で実行される各種アプリケーションプ
ログラムの障害監視を行うアプリケーション(APL)
モニタ部123を初め、障害情報を計算機システム1か
ら採取してそれを計算機システム1の保守管理サイト宛
に電子メールで自動通知するための機能部として、ログ
採取部124およびメール送信部125が設けられてい
る。
【0017】ログ採取部124は、障害解析に必要な初
期解析用データを計算機システム1内のソフトウェアや
ハードウェアから採取するためのものであり、計算機シ
ステム1のハードウェアまたはソフトウェアに障害が発
生したときに、初期解析用データを採取し、その採取し
た初期解析用データから電子メール用の添付ファイルを
作成する。初期解析用データは、計算機システムのハー
ドウェア環境を示すマシン構成情報、OS11の種類お
よびバージョンの情報、フラッシュメモリ25上に蓄積
されているハードウェア障害情報(FAN、温度、各部
の電圧、メモリ障害)、およびディスク障害情報、等か
ら構成されている。ハードウェア障害情報(FAN、温
度、各部の電圧、メモリ障害)については例えばハード
ウェア(HW)監視ドライバ13を通じてフラッシュメ
モリ25から採取され、またディスク障害情報について
はRAIDドライバ14等を通じて採取される。
【0018】また、OSによっては、OS自体にその動
作環境の履歴を採取するOS_Log採取部111を有
するものがあるが、この場合には、OS_Log採取部
111によって採取されたOSの動作環境履歴情報につ
いても、前述の初期解析用データとしてログ採取部12
4により採取される。
【0019】メール送信部125は、電子メールを用い
て障害発生の事実の報告と初期解析用データの通知を行
うためのものであり、ログ採取部124によって作成さ
れたファイルを電子メールに添付し、その電子メールを
保守センタや現場のシステム管理部門などの保守管理サ
イト宛に送信する。
【0020】ハードウェア(HW)検出センサ21は、
ハードウェア障害の4大要因(ディスク、FAN、メモ
リ、電源)の内、FANおよび電源についての状態を監
視する機能や、CPUの熱を監視する機能などを有して
いる。このハードウェア(HW)検出センサ21はFA
N、電圧、温度等に関する複数のセンサ群から構成され
ており、監視対象のデバイスからの検出値に異常が認め
られると、その時の値や日時、監視対象デバイス名、な
どの情報を、電気的に書き換え可能な不揮発性メモリで
あるフラッシュメモリ25にマザーボード障害ログ情報
(MFL_Log)として書き込む。
【0021】エラー検出回路24は計算機システム1の
主記憶として使用されるメモリ23の障害を検出するた
めのものであり、例えばECC付きのメモリデータにつ
いてはECCでは訂正することが出来ない2ビット分以
上のビットエラー(wビットエラー)が検出されたとき
に、それをフラッシュメモリ25にマザーボード障害ロ
グ情報(MFL_Log)として書き込む。
【0022】RAIDコントローラ26はRAIDドラ
イバ14と共同して、複数のディスク装置27から構成
されるRAIDディスクサブシステムを制御する。ディ
スク障害はこれらRAIDコントローラ26はRAID
ドライバ14によって検出される。
【0023】(障害検出)次に、本実施形態で用いられ
る障害検出機能について説明する。
【0024】図2に示されているように、本実施形態の
計算機システム1においては、ハードウェア、オペレー
ティングシステム11、またはアプリケーションプログ
ラムに何らかの障害が発生すると、その障害発生イベン
トの通知が、ハードウェアから監視ソフトウェア12に
対して、あるいはオペレーティングシステム11から監
視ソフトウェア12に対して行われる。監視ソフトウェ
ア12に対する障害発生イベントの通知は、例えば、ハ
ードウェア障害については、ハードウェア(HW)検出
センサ21やエラー検出回路24が障害発生を検出した
時に計算機システム11のCPUに対して障害発生を示
す割り込み信号を出力すること等によって行われ、また
オペレーティングシステム11またはアプリケーション
プログラムの障害については、監視ソフトウェア12自
体がメモリ23上のある特定のデータ構造体を定期的に
ポーリングしたり、あるいはオペレーティングシステム
11から監視ソフトウェア12へイベント通知を発行す
ることなどによって行われる。
【0025】このようにしてハードウェア、オペレーテ
ィングシステム11、またはアプリケーションプログラ
ムに障害が発生したことが検出されると、障害発生およ
びその障害の解析に必要な初期解析用データを外部の保
守管理サイトに電子メールで通知するための障害通知処
理が監視ソフトウェア12によって実行される。
【0026】なお、ここでの障害とは、基本的には、O
Sの通信機能を利用し得る状態での障害、つまりアプリ
ケーションプログラムの障害、OS11内の一部のプロ
セス障害などのOS障害、またはハードウェア障害など
を意味しており、OS自体が動作停止するようなOSク
ラッシュは含まない。
【0027】(障害通知処理)次に、図3のフローチャ
ートを参照して、監視ソフトウェア12によって実行さ
れる障害通知処理の手順を説明する。
【0028】障害発生が検出されると(ステップS11
のYES)、監視ソフトウェア12のログ採取部124
は、計算機システム1のハードウェア環境を示すマシン
構成情報、OS11の種類およびバージョンの情報、フ
ラッシュメモリ25上に蓄積されているハードウェア障
害情報(FAN、温度、各部の電圧、メモリ障害)、お
よびディスク障害情報、OSの動作環境履歴情報などを
初期解析用データとして採取する(ステップS12)。
次いで、監視ソフトウェア12のログ採取部124は、
採取した初期解析用データから電子メール(E_Mai
l)用の添付ファイルを作成し、メール送信部125に
渡す(ステップS13)。メール送信部125は、監視
ソフトウェア12内に予め登録されているメールアドレ
スを用いて、ログ採取部124によって作成された添付
ファイル付きの電子メール(障害E_Mail)を解析
窓口となる保守管理サイト宛に送信する(ステップS1
4)。
【0029】このように障害発生の事実とその障害の解
析に必要な情報とを電子メールによって自動的に保守管
理サイトに通知することにより、保守管理サイトでは、
どのようなシステムにてどのような障害が発生したのか
を即座に知ることができるようになり、実際の解析作業
に入るまでの時間を大幅に短縮することが可能となる。
【0030】(保守管理サービスシステム)次に、図4
を参照して、計算機システム1の保守管理を行うための
保守管理サービスシステム全体の構成を説明する。
【0031】図4において、カスタマー計算機#1,#
2,…,#Nはそれぞれ保守管理対象となる計算機であ
り、これら各計算機は図1の計算機システム1と同様の
構成を有している。カスタマー計算機#1,#2,…,
#Nは公衆回線網、専用回線網、あるいはインターネッ
ト等のネットワーク2を通じて保守窓口計算機3(また
は解析窓口計算機と称される)に接続されている。保守
窓口計算機3は、カスタマー計算機#1,#2,…,#
Nそれぞれの障害の解析窓口に配置された計算機であ
り、カスタマー計算機#1,#2,…,#Nからの障害
E_Mailはすべて保守窓口計算機3宛に送信され
る。保守窓口計算機3では、各障害E_Mailの添付
ファイルを解析することによって障害の種類の判別が行
われ、その判別結果に従って、実際の解析処理を行う複
数の保守管理サイトへの障害E_Mailの転送振り分
けが行われる。
【0032】解析担当計算機(A)14は例えば工場内
の解析担当部門内等に配置された第1の保守管理サイト
内の計算機であり、オペレーティングシステムの障害や
ハードウェア障害の解析を行う。また、解析担当計算機
(B)15は例えばソフトウェアの障害解析を行う会社
などに設けられた第2の保守管理サイト内の計算機であ
り、アプリケーションプログラムの障害解析を行うため
に利用される。この場合、オペレーティングシステム障
害やハードウェア障害に関する障害E_Mailについ
ては保守窓口計算機3から第1の保守管理サイトの解析
担当計算機(A)14に自動転送され、またアプリケー
ションプログラム障害に関する障害E_Mailについ
ては保守窓口計算機3から第2の保守管理サイトの解析
担当計算機(B)15に自動転送される。
【0033】(解析窓口の電子メール振り分け処理)次
に、図5のフローチャートを参照して、保守窓口計算機
3にて実行される障害E_Mailの振り分け処理の手
順について説明する。
【0034】保守窓口計算機3上では、メール振り分け
処理機能を実行するプログラムである保守管理システム
ソフトウェアが実行される。この保守管理システムソフ
トウェアには、解析担当計算機(A,B)14,15そ
れぞれのメールアドレスが登録されている。保守管理シ
ステムソフトウェアは、カスタマー計算機#1,#2,
…,#Nから障害E_Mailを受信すると(ステップ
S21)、その障害E_Mailの添付ファイルを参照
して、発生した障害イベントの種類を解析する(ステッ
プS22)。
【0035】発生した障害イベントがOS障害に関する
ものであれば(ステップS23のYES)、保守管理シ
ステムソフトウェアは、受信した障害E_Mailを解
析担当計算機(A)14に転送する(ステップS2
4)。また、発生した障害イベントがアプリケーション
障害(APL障害)に関するものであれば(ステップS
25のYES)、保守管理システムソフトウェアは、受
信した障害E_Mailを解析担当計算機(B)15に
転送する(ステップS26)。さらに、発生した障害イ
ベントがハードウェア障害(HW障害)に関するもので
あれば(ステップS27のYES)、保守管理システム
ソフトウェアは、受信した障害E_Mailを解析担当
計算機(A)14に転送するか、あるいは障害部品を特
定し、解析窓口の部品担当者などがその部品を調達して
現地に向かうなどの対応が取られる(ステップS2
8)。
【0036】このように、カスタマー計算機#1,#
2,…,#Nからの障害E_Mailを保守窓口計算機
3に集め、障害の種類に応じて、その障害E_Mail
を専門の解析担当者が存在する最適な保守管理サイトに
振り分けることにより、障害に対するより迅速な対応が
可能となる。また、保守窓口計算機3にて障害の種類を
判別することにより、部品調達などの簡便な作業につい
ては保守窓口にて行うことが出来るようになり、保守管
理サイトの解析担当者の負荷を低減することが可能とな
る。
【0037】(障害通知処理:その2)次に、図6のフ
ローチャートを参照して、図1の計算機システム1の監
視ソフトウェア12によって実行される障害通知処理の
第2の例を説明する。本例では、監視ソフトウェア12
には解析担当計算機(A,B)14,15それぞれのメ
ールアドレスが登録されており、図5のメール振り分け
処理は、計算機システム1内で実行される。
【0038】すなわち、障害発生が検出されると(ステ
ップS31のYES)、監視ソフトウェア12のログ採
取部124は、計算機システム1のハードウェア環境を
示すマシン構成情報、OS11の種類およびバージョン
の情報、フラッシュメモリ25上に蓄積されているハー
ドウェア障害情報(FAN、温度、各部の電圧、メモリ
障害)、およびディスク障害情報、OSの動作環境履歴
情報などを初期解析用データとして採取する(ステップ
S32)。次いで、監視ソフトウェア12のログ採取部
124は、採取した初期解析用データから電子メール
(E_Mail)用の添付ファイルを作成し、メール送
信部125に渡す(ステップS33)。メール送信部1
25は、添付ファイルを参照して、発生した障害イベン
トの種類を解析する(ステップS34)。
【0039】発生した障害イベントがOS障害に関する
ものであれば(ステップS35のYES)、メール送信
部125は、ログ採取部124によって作成された添付
ファイル付きの電子メール(障害E_Mail)を解析
担当計算機(A)14宛に送信する(ステップS3
6)。また、発生した障害イベントがアプリケーション
障害(APL障害)に関するものであれば(ステップS
37のYES)、メール送信部125は、ログ採取部1
24によって作成された添付ファイル付きの電子メール
(障害E_Mail)を解析担当計算機(B)15宛に
転送する(ステップS38)。さらに、発生した障害イ
ベントがハードウェア障害(HW障害)に関するもので
あれば(ステップS39のYES)、メール送信部12
5は、ログ採取部124によって作成された添付ファイ
ル付きの電子メール(障害E_Mail)を解析担当計
算機(A)14宛に送信する(ステップS40)。
【0040】このように監視ソフトウェア12自体にメ
ール振り分け機能を設けることにより、保守窓口計算機
3を経由することなく、障害の種類に対応した適切な保
守管理サイトに障害E_Mailを直接送信することが
可能となる。
【0041】(障害通知処理:その3)次に、図7のフ
ローチャートを参照して、図1の計算機システム1の監
視ソフトウェア12によって実行される障害通知処理の
第3の例を説明する。この障害通知処理は、図3で説明
した第1の障害通知処理にステップS101の処理が追
加されている点だけが第1の障害通知処理と異なってお
り、他の点は第1の障害通知処理と同じである。
【0042】すなわち、監視ソフトウェア12には、解
析窓口の保守管理サイトのメールアドレスに加え、その
保守管理サイトの解析窓口担当者の電話、ページャ、ポ
ケットベル、携帯電話などの電話番号も登録されてい
る。監視ソフトウェア12は、メール送信部125によ
って障害E_Mailを解析窓口の保守管理サイト宛に
送信した後(ステップS14)、解析窓口担当者の電
話、ページャ、ポケットベル、携帯電話などに自動発呼
して、障害の発生を解析窓口担当者に通知する(ステッ
プS101)。このように障害E_Mailの送信だけ
でなく、電話、ページャ、ポケットベル、携帯電話等へ
の自動発呼機能を設けることにより、障害発生の一報を
迅速に解析窓口担当者に送ることができるので、より迅
速な対応をとることが可能となる。
【0043】(障害通知処理:その4)次に、図8のフ
ローチャートを参照して、図1の計算機システム1の監
視ソフトウェア12によって実行される障害通知処理の
第4の例を説明する。本例の障害通知処理はメール振り
分け機能と上述の電話一報機能とを組み合わせた例であ
り、図6のステップS31〜S40の処理にステップS
111,S112,S113の処理が追加されている。
【0044】すなわち、監視ソフトウェア12は、障害
E_Mailを解析担当計算機(A)14宛に送信した
場合には(ステップS36)、その後に、解析担当計算
機(A)14が存在する第1の保守管理サイト内の解析
担当者の電話、ページャ、ポケットベル、携帯電話など
に自動発呼して、障害の発生を通知する(ステップS1
11)。また、同様にして、ステップS38で障害E_
Mailを解析担当計算機(B)15宛に送信した場合
には、その後に、解析担当計算機(B)15が存在する
第2の保守管理サイト内の解析担当者の電話、ページ
ャ、ポケットベル、携帯電話などに自動発呼し(ステッ
プS112)、またステップS40で障害E_Mail
を解析担当計算機(A)14宛に送信した場合には、そ
の後に、解析担当計算機(A)14が存在する第1の保
守管理サイト内の解析担当者の電話、ページャ、ポケッ
トベル、携帯電話などに自動発呼する(ステップS11
3)。
【0045】なお、以上の説明は、基本的には、オペレ
ーティングシステム11自体が停止するOSクラッシュ
以外の他の障害発生が起きた場合を想定したものであ
る。オペレーティングシステム11自体に障害が発生し
た場合には、その状態では電子メールを送信することは
出来ないので、OSクラッシュ発生時には例えば監視ソ
フトウェア12は障害の解析に必要な情報の収集だけを
行っておき、オペレーティングシステム11が再起動さ
れたときに、既に収集されている情報を電子メールに添
付して保守管理サイトに自動送信すればよい。これによ
り、OSクラッシュの場合でも、解析に必要な情報を電
子メールで送信することが可能となる。また、OSクラ
ッシュ時には、通常、OS内にデーモンなどとして設け
られたクラッシュ処理部によってOSクラッシュの原因
コードなどがメモリ23上の特定の領域に書き込まれる
ので、監視ソフトウェア12によってそれを採取してお
き、再起動時に、OSクラッシュの原因コードを他の初
期解析データと一緒に電子メールにて保守管理サイトに
送信することが好ましい。
【0046】また、上述の監視ソフトウェア12をCD
−ROM等のコンピュータ読み取り可能な記録媒体に記
録しておけば、その記録媒体を通じて監視ソフトウェア
12を通常の計算機に導入するだけで本実施形態と同様
の効果を得ることができる。メール振り分けのための保
守管理システムソフトウェアについても同様である。ま
た、障害検出機能についてはソフトウェアおよびハード
ウェアのどちらで実現しても良く、また監視ソフトウェ
ア12自体に計算機システム1のソフトウェアおよびハ
ードウェアについての障害検出機能を設けてもよい。
【0047】
【発明の効果】以上説明したように、本発明によれば、
解析作業に必要な基本的な情報を計算機システムから保
守管理サイトの解析窓口等に自動的に通知できるように
なり、障害に対する迅速な対応を行うことが可能とな
る。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る計算機システムの構
成を示すブロック図。
【図2】同実施形態における障害検出処理の原理を説明
するための図。
【図3】同実施形態で用いられる障害通知処理の第1の
手順を示すフローチャート。
【図4】同実施形態の計算機システムの保守管理を行う
ための保守管理サービスシステム全体の構成を示すブロ
ック図。
【図5】図4の保守管理サービスシステムに設けられた
解析窓口計算機にて行われるメール振り分け処理の手順
を示すフローチャート。
【図6】同実施形態で用いられる障害通知処理の第2の
手順を示すフローチャート。
【図7】同実施形態で用いられる障害通知処理の第3の
手順を示すフローチャート。
【図8】同実施形態で用いられる障害通知処理の第4の
手順を示すフローチャート。
【符号の説明】
1…計算機システム 2…ネットワーク 3…保守窓口計算機 4…解析担当計算機 5…解析担当計算機 11…オペレーティングシステム 12…監視ソフトウェア 13…ハードウェア監視ドライバ 14…RAIDドライバ 21…ハードウェアセンサ 24…エラー検出回路 25…フラッシュメモリ 26…RAIDコントローラ 27…ディスク装置

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 計算機システムの障害を検出する障害検
    出手段と、 前記障害検出手段によって障害の発生が検出されたと
    き、前記障害の解析に必要な情報を前記計算機システム
    から収集する障害解析用データ収集手段と、 前記障害解析用データ収集手段によって収集された情報
    から電子メール送信用のファイルを作成する手段と、 前記作成されたファイルを添付した電子メールを保守管
    理サイト宛に送信し、障害発生およびその障害の解析に
    必要な情報を通知する障害通知手段とを具備することを
    特徴とする計算機システム。
  2. 【請求項2】 前記障害通知手段は、前記電子メールを
    保守管理サイト宛に送信すると共に、前記保守管理サイ
    トに対して電話による発呼を行うことを特徴とする請求
    項1記載の計算機システム。
  3. 【請求項3】 前記障害通知手段は、 障害の種類毎に異なる複数の保守管理サイトそれぞれの
    メールアドレスを保持する手段と、 前記障害解析用データ収集手段によって収集された情報
    に基づいて、前記発生した障害の種類を判別する障害判
    別手段と、 前記障害判別手段による判別結果に基づいて、前記複数
    の保守管理サイトの中から前記電子メールを送信すべき
    保守管理サイトを決定する手段とをさらに具備すること
    を特徴とする請求項1記載の計算機システム。
  4. 【請求項4】 障害の種類別に区分された複数の保守管
    理サイトおよび保守管理対象の複数の計算機にネットワ
    ークを介して接続され、前記各保守管理対象計算機の保
    守管理を行う保守管理システムであって、 障害が発生した保守管理対象計算機から送信される障害
    情報付きの電子メールを受信および解析し、前記発生し
    た障害の種類を判別する障害判別手段と、 前記障害判別手段によって判別された障害の種類に対応
    する保守管理サイト宛に、前記受信した電子メールを転
    送する手段とを具備することを特徴とする保守管理シス
    テム。
  5. 【請求項5】 計算機システムの障害発生を保守管理サ
    イトに通知するための障害通知方法であって、 前記計算機システムの障害を検出し、 前記障害の発生が検出されたとき、前記障害の解析に必
    要な情報を前記計算機システムから収集し、 前記収集した情報から電子メール送信用のファイルを作
    成し、 前記作成したファイルを添付した電子メールを保守管理
    サイト宛に送信し、障害発生およびその障害の解析に必
    要な情報を前記保守管理サイトに通知することを特徴と
    する障害通知方法。
  6. 【請求項6】 前記収集された情報に基づいて前記発生
    した障害の種類を判別し、その判別結果に基づいて、障
    害の種類毎に用意された複数の保守管理サイトの中から
    前記電子メールを送信すべき保守管理サイトを決定する
    ことを特徴とする請求項5記載の障害通知方法。
  7. 【請求項7】 前記計算機システムのオペレーティング
    システムが動作を継続できないような障害が発生した場
    合には、その障害発生時に、前記障害の解析に必要な情
    報を収集し、 前記オペレーティングシステムが再起動されたときに、
    前記収集した情報を電子メールによって保守管理サイト
    に送信することを特徴とする請求項5記載の障害通知方
    法。
  8. 【請求項8】 障害の種類別に区分された複数の保守管
    理サイトおよび保守管理対象の複数の計算機にネットワ
    ークを介して接続され、前記各保守管理対象計算機の保
    守管理を行う保守管理システムにおいて適用される障害
    通知方法であって、 障害が発生した保守管理対象計算機から送信される障害
    情報付きの電子メールを受信および解析することによっ
    て、前記発生した障害の種類を判別し、 前記障害判別手段によって判別された障害の種類に対応
    する保守管理サイト宛に、前記受信した電子メールを転
    送することを特徴とする障害通知方法。
  9. 【請求項9】 計算機システムの障害発生を保守管理サ
    イトに通知するためのコンピュータプログラムが記録さ
    れた記録媒体であって、 前記コンピュータプログラムは、 計算機システムに障害が発生したとき、前記障害の解析
    に必要な情報を前記計算機システムから収集する手順
    と、 前記収集した情報から電子メール送信用のファイルを作
    成する手順と、 前記作成したファイルを添付した電子メールを保守管理
    サイト宛に送信し、障害発生およびその障害の解析に必
    要な情報を前記保守管理サイトに通知する手順とを具備
    することを特徴とする記録媒体。
  10. 【請求項10】 前記コンピュータプログラムは、 前記収集された情報に基づいて前記発生した障害の種類
    を判別する手順と、 前記判別結果に基づいて、障害の種類毎に用意された複
    数の保守管理サイトの中から前記電子メールを送信すべ
    き保守管理サイトを決定する手順とをさらに具備するこ
    とを特徴とする請求項9記載の記録媒体。
JP11180021A 1999-06-25 1999-06-25 計算機システムおよびその保守管理システム並びに障害通知方法 Pending JP2001005692A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11180021A JP2001005692A (ja) 1999-06-25 1999-06-25 計算機システムおよびその保守管理システム並びに障害通知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11180021A JP2001005692A (ja) 1999-06-25 1999-06-25 計算機システムおよびその保守管理システム並びに障害通知方法

Publications (1)

Publication Number Publication Date
JP2001005692A true JP2001005692A (ja) 2001-01-12

Family

ID=16076086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11180021A Pending JP2001005692A (ja) 1999-06-25 1999-06-25 計算機システムおよびその保守管理システム並びに障害通知方法

Country Status (1)

Country Link
JP (1) JP2001005692A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259310A (ja) * 2001-03-02 2002-09-13 Nec Corp サーバ管理システムおよびサーバ管理方法
JP2002351699A (ja) * 2001-05-29 2002-12-06 Nec Corp 問い合わせシステムと問い合わせ方法及び問い合わせプログラム
JP2003044322A (ja) * 2001-07-27 2003-02-14 Nec Soft Ltd 障害解析支援システム及び方法
JP2004139500A (ja) * 2002-10-21 2004-05-13 Iyo Engineering:Kk ソフトウェア障害解決支援プログラム及びシステム並びにコンピュータ
JP2004295612A (ja) * 2003-03-27 2004-10-21 Bank Of Tokyo-Mitsubishi Ltd 障害対処装置及び金融取引支援プログラム
JP2007188887A (ja) * 2006-01-12 2007-07-26 Carl Zeiss Smt Ltd 荷電粒子ビーム装置を制御するために、装置のユーザによって入力されたコマンドに応答して動作可能なコンピュータを含む荷電粒子ビーム装置
JP2009157944A (ja) * 2009-04-02 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> 監視制御システム
JP2012123507A (ja) * 2010-12-07 2012-06-28 Fujitsu Ltd 情報処理装置の制御方法、情報処理装置、及び情報処理装置の制御プログラム
US8612372B2 (en) 2008-08-29 2013-12-17 International Business Machines Corporation Detection rule-generating facility
US9021317B2 (en) 2009-03-12 2015-04-28 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Reporting and processing computer operation failure alerts
CN106649039A (zh) * 2016-12-13 2017-05-10 郑州云海信息技术有限公司 一种嵌入式Linux系统下C语言监控软件容错的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259310A (ja) * 2001-03-02 2002-09-13 Nec Corp サーバ管理システムおよびサーバ管理方法
JP2002351699A (ja) * 2001-05-29 2002-12-06 Nec Corp 問い合わせシステムと問い合わせ方法及び問い合わせプログラム
JP2003044322A (ja) * 2001-07-27 2003-02-14 Nec Soft Ltd 障害解析支援システム及び方法
JP2004139500A (ja) * 2002-10-21 2004-05-13 Iyo Engineering:Kk ソフトウェア障害解決支援プログラム及びシステム並びにコンピュータ
JP2004295612A (ja) * 2003-03-27 2004-10-21 Bank Of Tokyo-Mitsubishi Ltd 障害対処装置及び金融取引支援プログラム
JP2007188887A (ja) * 2006-01-12 2007-07-26 Carl Zeiss Smt Ltd 荷電粒子ビーム装置を制御するために、装置のユーザによって入力されたコマンドに応答して動作可能なコンピュータを含む荷電粒子ビーム装置
US8612372B2 (en) 2008-08-29 2013-12-17 International Business Machines Corporation Detection rule-generating facility
US9021317B2 (en) 2009-03-12 2015-04-28 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Reporting and processing computer operation failure alerts
JP2009157944A (ja) * 2009-04-02 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> 監視制御システム
JP2012123507A (ja) * 2010-12-07 2012-06-28 Fujitsu Ltd 情報処理装置の制御方法、情報処理装置、及び情報処理装置の制御プログラム
CN106649039A (zh) * 2016-12-13 2017-05-10 郑州云海信息技术有限公司 一种嵌入式Linux系统下C语言监控软件容错的方法

Similar Documents

Publication Publication Date Title
US7281040B1 (en) Diagnostic/remote monitoring by email
US7188171B2 (en) Method and apparatus for software and hardware event monitoring and repair
US11789760B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user
US20080140895A1 (en) Systems and Arrangements for Interrupt Management in a Processing Environment
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
JP4648961B2 (ja) 装置メンテナンスシステム、方法および情報処理装置
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
US20080288828A1 (en) structures for interrupt management in a processing environment
JP3653335B2 (ja) コンピュータ管理システム
US20060112314A1 (en) Computer health check method
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
EP2495660A1 (en) Information processing device and method for controlling information processing device
JPH1188471A (ja) 試験方法及び試験装置
JP2004192293A (ja) ソフトウェア検証支援ツール
JP2000112847A (ja) クライアント・サーバシステム及びクライアント稼働監視方法
KR20020065188A (ko) 컴퓨터 시스템의 장애관리 방법
JPH11272507A (ja) 監視情報通報システムおよびそのプログラム記録媒体
KR20040092248A (ko) 전산자원의 원격제어 관리 시스템
JP2751861B2 (ja) ネットワークシステム障害検出処理回路
JPH1040091A (ja) プログラム制御装置
JPWO2004001602A1 (ja) サーバマシン、クライアントマシン、サーバクライアントシステム、サーバプログラム、およびクライアントプログラム
CN117453496A (zh) 一种服务器硬件异常的报警方法、系统以及装置
JP3166730B2 (ja) 交換機の自動試験装置および交換機の自動試験方法、並びに記録媒体
KR20020061021A (ko) 컴퓨터 원격 a/s 시스템
JPH10260870A (ja) システム起動/終了制御装置